five

SeaExam and SeaBench

收藏
arXiv2025-02-10 更新2025-02-13 收录
下载链接:
https://github.com/DAMO-NLP-SG/SeaExam and https://github.com/DAMO-NLP-SG/SeaBench
下载链接
链接失效反馈
官方服务:
资源简介:
SeaExam和SeaBench是两个新颖的基准数据集,专为评估大型语言模型在东南亚应用程序场景中的能力而设计。SeaExam基于东南亚地区现实世界的教育考试场景构建,包含地方历史和文学等科目。而SeaBench则围绕多轮、开放式任务,反映东南亚社区内的日常互动。这两个数据集均由本地语言专家精心构建,以适应东南亚地区的独特应用场景和文化背景。
提供机构:
新加坡南洋理工大学,新加坡;阿里巴巴集团DAMO学院,新加坡;杭州湖畔实验室,中国;新加坡管理大学
创建时间:
2025-02-10
搜集汇总
数据集介绍
main_image_url
构建方式
SeaExam and SeaBench 数据集的构建基于东南亚地区真实世界的应用场景,而非主要来源于英文翻译的多语言数据集。SeaExam 从东南亚地区的教育考试中收集问题,涵盖了包括本地历史和文学在内的多个学科。SeaBench 则是围绕多轮、开放式任务而构建的,这些任务反映了东南亚社区中的日常互动。
使用方法
使用 SeaExam 和 SeaBench 数据集时,可以通过对比模型在多个类别上的表现来评估其多语言应用能力。SeaExam 使用准确性作为评价指标,而 SeaBench 则使用 LLMs-as-a-Judge 方法,由 GPT-4o 作为判断模型来评估 LLM 的响应。此外,还可以通过人类评估来验证模型性能评估的可靠性。
背景与挑战
背景概述
SeaExam and SeaBench数据集是由刘超群、张文轩、应家豪等研究人员于2025年2月共同创建的两个新的基准数据集,旨在评估大型语言模型(LLMs)在东南亚(SEA)应用场景下的能力。这两个数据集基于东南亚地区的真实世界场景构建,与现有主要基于英语翻译的多语言数据集不同。SeaExam数据集从区域教育考试中收集数据,涵盖了包括本地历史和文学在内的各个学科。SeaBench数据集则围绕多轮开放式的任务设计,反映了东南亚社区日常互动的情景。通过实验评估,SeaExam和SeaBench比现有的翻译基准更能有效地区分LLMs在SEA语言任务上的性能,突出了使用真实世界查询来评估LLMs多语言能力的重要性。
当前挑战
SeaExam和SeaBench数据集面临的挑战主要包括:1) 所解决的领域问题:这两个数据集旨在评估LLMs在东南亚语言任务中的性能,而现有的多语言数据集主要关注英语翻译,无法完全反映东南亚语言的实际使用情况。2) 构建过程中的挑战:在构建数据集的过程中,需要与东南亚地区的本地语言学家合作,收集和整理真实世界的使用场景,并将其融入到数据集中。此外,还需要考虑多语言模型的适应性和安全性问题,以确保模型在不同语言应用场景中的表现。
常用场景
经典使用场景
SeaExam and SeaBench数据集被设计用于评估大型语言模型(LLMs)在东南亚地区的应用能力。SeaExam数据集来源于区域教育考试,涵盖了当地历史和文学等科目,而SeaBench则围绕多轮开放性问题构建,反映了东南亚社区日常互动。这两个数据集为LLMs在东南亚语言任务上的性能评估提供了更有效的工具。
解决学术问题
SeaExam and SeaBench数据集解决了现有多语言数据集主要基于英语翻译的问题。这两个数据集基于东南亚地区的真实世界场景构建,能够更有效地评估LLMs在东南亚语言任务上的性能。SeaExam和SeaBench的引入强调了使用真实世界查询来评估LLMs多语言能力的重要性。
实际应用
SeaExam和SeaBench数据集在实际应用中具有重要意义。它们可以用于评估LLMs在东南亚地区的教育、文化、日常互动等领域的应用能力。此外,这些数据集还可以用于指导LLMs的设计和训练,使其更好地适应东南亚地区的语言和文化特点。
数据集最近研究
最新研究方向
本研究提出两个新的基准数据集,SeaExam和SeaBench,旨在评估大型语言模型(LLMs)在东南亚(SEA)应用场景中的能力。与主要来自英文翻译的现有多语言数据集不同,这些基准数据集是基于SEA地区的现实场景构建的。SeaExam从区域教育考试中汲取数据,形成了一个包含地方历史和文学等学科的综合性数据集。而SeaBench则围绕多轮、开放式的任务构建,这些任务反映了SEA社区日常互动的特点。实验结果表明,与它们的翻译基准相比,SeaExam和SeaBench在评估LLMs在SEA语言任务上的表现方面更为有效。这突出了使用现实世界查询来评估LLMs的多语言能力的重要性。
相关研究论文
  • 1
    SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia新加坡南洋理工大学,新加坡;阿里巴巴集团DAMO学院,新加坡;杭州湖畔实验室,中国;新加坡管理大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作