SeaExam and SeaBench

Name: SeaExam and SeaBench
Creator: 新加坡南洋理工大学，新加坡；阿里巴巴集团DAMO学院，新加坡；杭州湖畔实验室，中国；新加坡管理大学
Published: 2025-02-10 17:40:25
License: 暂无描述

arXiv2025-02-10 更新2025-02-13 收录

下载链接：

https://github.com/DAMO-NLP-SG/SeaExam and https://github.com/DAMO-NLP-SG/SeaBench

下载链接

链接失效反馈

官方服务：

资源简介：

SeaExam和SeaBench是两个新颖的基准数据集，专为评估大型语言模型在东南亚应用程序场景中的能力而设计。SeaExam基于东南亚地区现实世界的教育考试场景构建，包含地方历史和文学等科目。而SeaBench则围绕多轮、开放式任务，反映东南亚社区内的日常互动。这两个数据集均由本地语言专家精心构建，以适应东南亚地区的独特应用场景和文化背景。

提供机构：

新加坡南洋理工大学，新加坡；阿里巴巴集团DAMO学院，新加坡；杭州湖畔实验室，中国；新加坡管理大学

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

SeaExam and SeaBench 数据集的构建基于东南亚地区真实世界的应用场景，而非主要来源于英文翻译的多语言数据集。SeaExam 从东南亚地区的教育考试中收集问题，涵盖了包括本地历史和文学在内的多个学科。SeaBench 则是围绕多轮、开放式任务而构建的，这些任务反映了东南亚社区中的日常互动。

使用方法

使用 SeaExam 和 SeaBench 数据集时，可以通过对比模型在多个类别上的表现来评估其多语言应用能力。SeaExam 使用准确性作为评价指标，而 SeaBench 则使用 LLMs-as-a-Judge 方法，由 GPT-4o 作为判断模型来评估 LLM 的响应。此外，还可以通过人类评估来验证模型性能评估的可靠性。

背景与挑战

背景概述

SeaExam and SeaBench数据集是由刘超群、张文轩、应家豪等研究人员于2025年2月共同创建的两个新的基准数据集，旨在评估大型语言模型（LLMs）在东南亚（SEA）应用场景下的能力。这两个数据集基于东南亚地区的真实世界场景构建，与现有主要基于英语翻译的多语言数据集不同。SeaExam数据集从区域教育考试中收集数据，涵盖了包括本地历史和文学在内的各个学科。SeaBench数据集则围绕多轮开放式的任务设计，反映了东南亚社区日常互动的情景。通过实验评估，SeaExam和SeaBench比现有的翻译基准更能有效地区分LLMs在SEA语言任务上的性能，突出了使用真实世界查询来评估LLMs多语言能力的重要性。

当前挑战

SeaExam和SeaBench数据集面临的挑战主要包括：1) 所解决的领域问题：这两个数据集旨在评估LLMs在东南亚语言任务中的性能，而现有的多语言数据集主要关注英语翻译，无法完全反映东南亚语言的实际使用情况。2) 构建过程中的挑战：在构建数据集的过程中，需要与东南亚地区的本地语言学家合作，收集和整理真实世界的使用场景，并将其融入到数据集中。此外，还需要考虑多语言模型的适应性和安全性问题，以确保模型在不同语言应用场景中的表现。

常用场景

经典使用场景

SeaExam and SeaBench数据集被设计用于评估大型语言模型（LLMs）在东南亚地区的应用能力。SeaExam数据集来源于区域教育考试，涵盖了当地历史和文学等科目，而SeaBench则围绕多轮开放性问题构建，反映了东南亚社区日常互动。这两个数据集为LLMs在东南亚语言任务上的性能评估提供了更有效的工具。

解决学术问题

SeaExam and SeaBench数据集解决了现有多语言数据集主要基于英语翻译的问题。这两个数据集基于东南亚地区的真实世界场景构建，能够更有效地评估LLMs在东南亚语言任务上的性能。SeaExam和SeaBench的引入强调了使用真实世界查询来评估LLMs多语言能力的重要性。

实际应用

SeaExam和SeaBench数据集在实际应用中具有重要意义。它们可以用于评估LLMs在东南亚地区的教育、文化、日常互动等领域的应用能力。此外，这些数据集还可以用于指导LLMs的设计和训练，使其更好地适应东南亚地区的语言和文化特点。

数据集最近研究