SeaExam and SeaBench

Name: SeaExam and SeaBench
Creator: 新加坡南洋理工大学，新加坡；阿里巴巴集团DAMO学院，新加坡；杭州湖畔实验室，中国；新加坡管理大学
Published: 2025-02-10 17:40:25
License: 暂无描述

arXiv2025-02-10 更新2025-02-13 收录

下载链接：

https://github.com/DAMO-NLP-SG/SeaExam and https://github.com/DAMO-NLP-SG/SeaBench

下载链接

链接失效反馈

官方服务：

资源简介：

SeaExam和SeaBench是两个新颖的基准数据集，专为评估大型语言模型在东南亚应用程序场景中的能力而设计。SeaExam基于东南亚地区现实世界的教育考试场景构建，包含地方历史和文学等科目。而SeaBench则围绕多轮、开放式任务，反映东南亚社区内的日常互动。这两个数据集均由本地语言专家精心构建，以适应东南亚地区的独特应用场景和文化背景。

SeaExam and SeaBench are two novel benchmark datasets specifically designed to evaluate the capabilities of large language models (LLMs) in Southeast Asian application scenarios. SeaExam is constructed based on real-world educational examination scenarios in Southeast Asia, covering subjects such as local history and literature. SeaBench focuses on multi-turn, open-ended tasks that reflect daily interactions within Southeast Asian communities. Both datasets are meticulously developed by local language experts to cater to the unique application scenarios and cultural backgrounds of the Southeast Asian region.

提供机构：

新加坡南洋理工大学，新加坡；阿里巴巴集团DAMO学院，新加坡；杭州湖畔实验室，中国；新加坡管理大学

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

SeaExam and SeaBench 数据集的构建基于东南亚地区真实世界的应用场景，而非主要来源于英文翻译的多语言数据集。SeaExam 从东南亚地区的教育考试中收集问题，涵盖了包括本地历史和文学在内的多个学科。SeaBench 则是围绕多轮、开放式任务而构建的，这些任务反映了东南亚社区中的日常互动。

使用方法

使用 SeaExam 和 SeaBench 数据集时，可以通过对比模型在多个类别上的表现来评估其多语言应用能力。SeaExam 使用准确性作为评价指标，而 SeaBench 则使用 LLMs-as-a-Judge 方法，由 GPT-4o 作为判断模型来评估 LLM 的响应。此外，还可以通过人类评估来验证模型性能评估的可靠性。

背景与挑战

背景概述

SeaExam and SeaBench数据集是由刘超群、张文轩、应家豪等研究人员于2025年2月共同创建的两个新的基准数据集，旨在评估大型语言模型（LLMs）在东南亚（SEA）应用场景下的能力。这两个数据集基于东南亚地区的真实世界场景构建，与现有主要基于英语翻译的多语言数据集不同。SeaExam数据集从区域教育考试中收集数据，涵盖了包括本地历史和文学在内的各个学科。SeaBench数据集则围绕多轮开放式的任务设计，反映了东南亚社区日常互动的情景。通过实验评估，SeaExam和SeaBench比现有的翻译基准更能有效地区分LLMs在SEA语言任务上的性能，突出了使用真实世界查询来评估LLMs多语言能力的重要性。

当前挑战

SeaExam和SeaBench数据集面临的挑战主要包括：1) 所解决的领域问题：这两个数据集旨在评估LLMs在东南亚语言任务中的性能，而现有的多语言数据集主要关注英语翻译，无法完全反映东南亚语言的实际使用情况。2) 构建过程中的挑战：在构建数据集的过程中，需要与东南亚地区的本地语言学家合作，收集和整理真实世界的使用场景，并将其融入到数据集中。此外，还需要考虑多语言模型的适应性和安全性问题，以确保模型在不同语言应用场景中的表现。

常用场景

经典使用场景

SeaExam and SeaBench数据集被设计用于评估大型语言模型（LLMs）在东南亚地区的应用能力。SeaExam数据集来源于区域教育考试，涵盖了当地历史和文学等科目，而SeaBench则围绕多轮开放性问题构建，反映了东南亚社区日常互动。这两个数据集为LLMs在东南亚语言任务上的性能评估提供了更有效的工具。

解决学术问题

SeaExam and SeaBench数据集解决了现有多语言数据集主要基于英语翻译的问题。这两个数据集基于东南亚地区的真实世界场景构建，能够更有效地评估LLMs在东南亚语言任务上的性能。SeaExam和SeaBench的引入强调了使用真实世界查询来评估LLMs多语言能力的重要性。

实际应用

SeaExam和SeaBench数据集在实际应用中具有重要意义。它们可以用于评估LLMs在东南亚地区的教育、文化、日常互动等领域的应用能力。此外，这些数据集还可以用于指导LLMs的设计和训练，使其更好地适应东南亚地区的语言和文化特点。

数据集最近研究