five

LAG-MMLU

收藏
arXiv2025-03-18 更新2025-03-20 收录
下载链接:
http://arxiv.org/abs/2503.11911v2
下载链接
链接失效反馈
官方服务:
资源简介:
LAG-MMLU数据集是由明尼苏达大学等研究机构创建的,包含500个从原始MMLU benchmark随机选取的样本,涵盖人文学科、STEM、社会科学等领域。该数据集包括首个为Giriama语种创建的金标准(人工翻译)集合,以及两个针对拉脱维亚语的银标准数据集:一个是机器翻译的,另一个是机器翻译后经过人工审校的。该数据集旨在评估大型语言模型在不同语言下的理解和知识表示能力,特别是在低资源语言中的表现。

The LAG-MMLU dataset was developed by research institutions including the University of Minnesota. It contains 500 samples randomly selected from the original MMLU benchmark, spanning disciplines including humanities, STEM, and social sciences. This dataset includes the first gold-standard (human-translated) corpus specifically created for the Giriama language, as well as two silver-standard datasets for Latvian: one is purely machine-translated, and the other is machine-translated content that underwent manual proofreading. This dataset is designed to evaluate the comprehension and knowledge representation capabilities of large language models (LLMs) across various languages, especially their performance in low-resource languages.
提供机构:
明尼苏达大学
创建时间:
2025-03-15
搜集汇总
数据集介绍
main_image_url
构建方式
LAG-MMLU数据集的构建基于原始MMLU基准,通过从15,000多个选择题中随机抽取500个样本,涵盖57个学科领域。为确保语言和文化相关性,数据集中的问题由母语者进行翻译和校对。具体而言,拉脱维亚语问题通过机器翻译并结合人工编辑,而吉里亚马语问题则由母语者直接翻译。这一过程确保了数据集在低资源语言(LRLs)中的高质量和准确性。
特点
LAG-MMLU数据集的特点在于其多语言和多任务性质,涵盖英语、拉脱维亚语和吉里亚马语。数据集包含55个任务,分布在人文、STEM、社会科学和其他领域,能够全面评估大语言模型(LLMs)在不同语言和文化背景下的理解和推理能力。特别是,吉里亚马语作为首次被纳入基准的低资源语言,填补了现有NLP研究中的空白。数据集还通过零样本和少样本设置,评估模型在不同任务中的表现,进一步增强了其评估的全面性。
使用方法
LAG-MMLU数据集的使用方法包括零样本和少样本评估,结合链式思维(CoT)推理,以全面测试大语言模型的多语言理解能力。研究人员可以通过Inspect AI框架对模型进行动态提示工程、数据集过滤和评分指标计算,如精确匹配和选择题评估。数据集支持对模型在英语、拉脱维亚语和吉里亚马语中的表现进行对比分析,特别适用于评估低资源语言环境下的模型性能。
背景与挑战
背景概述
LAG-MMLU数据集是一个专注于评估大型语言模型(LLMs)在拉脱维亚语和吉里亚马语中的多任务语言理解能力的基准数据集。该数据集由明尼苏达大学双城分校、独立研究员以及Masakhane等机构的研究人员于2025年创建,旨在填补低资源语言(LRLs)在多语言评估中的空白。LAG-MMLU基于Massive Multitask Language Understanding(MMLU)框架,通过引入拉脱维亚语和吉里亚马语的任务,首次对吉里亚马语进行了基准测试。该数据集的核心研究问题在于评估LLMs在低资源语言中的知识表示和推理能力,特别是在文化相关性和语言复杂性方面的表现。LAG-MMLU的发布为多语言自然语言处理(NLP)领域提供了重要的评估工具,推动了文化AI语境化的发展。
当前挑战
LAG-MMLU数据集在构建和应用过程中面临多重挑战。首先,低资源语言的评估问题尤为突出,尤其是吉里亚马语,其数字资源匮乏,语言结构复杂,导致模型在该语言上的表现显著低于高资源语言如英语。其次,数据集的构建过程中,自动翻译和人工编辑的结合虽然提高了翻译质量,但仍存在文化特定问题的翻译误差,例如拉脱维亚语中的某些自动翻译错误增加了评估的不确定性。此外,数据集的样本量较小,限制了其泛化能力,且缺乏正式的质量控制机制,如跨注释者一致性(IAA)验证。最后,封闭模型的“黑箱”性质使得模型之间的公平比较变得困难,尤其是在低资源语言上的表现差异显著。这些挑战凸显了在低资源语言评估中,仍需更多的训练数据、精细调优和语言适应策略。
常用场景
经典使用场景
LAG-MMLU数据集主要用于评估大型语言模型(LLMs)在低资源语言(如拉脱维亚语和吉里亚马语)中的多任务语言理解能力。通过提供涵盖人文、STEM、社会科学等多个领域的500道多选题,LAG-MMLU为研究者提供了一个标准化的评估框架,用于测试模型在不同语言和文化背景下的知识表示和推理能力。该数据集特别适用于零样本和少样本学习场景,帮助研究者深入理解模型在低资源语言中的表现。
解决学术问题
LAG-MMLU数据集解决了当前多语言模型评估中的一个关键问题,即缺乏针对低资源语言的高质量评估基准。通过引入拉脱维亚语和吉里亚马语的多任务语言理解测试,该数据集填补了现有评估框架的空白,特别是在非洲和东欧语言的代表性不足方面。此外,LAG-MMLU通过人类翻译和编辑的翻译数据,减少了自动翻译带来的偏差和噪声,确保了评估结果的准确性和文化相关性。这为研究者提供了一个可靠的工具,用于评估和改进模型在低资源语言中的表现。
衍生相关工作
LAG-MMLU数据集的推出催生了一系列相关研究工作,特别是在低资源语言的多语言模型评估领域。例如,基于LAG-MMLU的研究进一步探索了链式思维(CoT)提示对模型性能的提升效果,特别是在少样本学习场景中的应用。此外,该数据集还启发了更多针对非洲和东欧语言的评估基准的开发,如ArabicMMLU和IndoMMLU等。这些工作不仅扩展了多语言模型的评估范围,还为未来的低资源语言研究提供了宝贵的参考和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作