LAG-MMLU
收藏arXiv2025-03-15 更新2025-03-19 收录
下载链接:
http://arxiv.org/abs/2503.11911v1
下载链接
链接失效反馈官方服务:
资源简介:
LAG-MMLU数据集是由Masakhane团队开发的,包含500个从原始MMLU benchmark随机选择的样本,涵盖人文学科、STEM、社会科学和其他领域。该数据集为拉脱维亚语和基里雅马语提供了第一个金标准(人工翻译)的集合,以及两个银标准数据集,一个是机器翻译的,另一个是机器翻译后经过人工校对的。该数据集旨在评估大型语言模型在低资源语言中的多语言理解和知识表示能力。
The LAG-MMLU dataset was developed by the Masakhane team. It includes 500 samples randomly selected from the original MMLU benchmark, covering the humanities, STEM, social sciences and other academic fields. This dataset provides the first gold-standard (manually translated) corpus for Latvian and Kiryama, alongside two silver-standard datasets: one is machine-translated, and the other is machine-translated and subsequently manually proofread. The dataset aims to evaluate the multilingual comprehension and knowledge representation capabilities of large language models in low-resource languages.
提供机构:
明尼苏达大学双城校区, 独立研究员, 贝拉明学院预科, Masakhane
创建时间:
2025-03-15
搜集汇总
数据集介绍

构建方式
LAG-MMLU数据集的构建基于原始MMLU基准,通过从15,000多个选择题中随机抽取500个样本,涵盖57个学科领域。为确保语言和文化相关性,拉脱维亚语问题通过MyMemory API进行机器翻译,并由母语者进行人工校对;而Giriama语问题则由母语专家直接翻译。数据集包含55个任务,涵盖人文学科、STEM、社会科学等领域,确保了多样性和代表性。
特点
LAG-MMLU数据集的特点在于其多语言性和文化适应性。它不仅包含英语基准数据,还首次引入了Giriama语的黄金标准翻译,填补了低资源语言在NLP基准中的空白。数据集通过人工校对和机器翻译的结合,确保了翻译的准确性和文化相关性。此外,数据集的55个任务涵盖了广泛的学科领域,能够全面评估模型的多任务语言理解能力。
使用方法
LAG-MMLU数据集主要用于评估大型语言模型在多语言环境下的表现。通过零样本和少样本设置,结合链式思维(CoT)推理,研究者可以评估模型在英语、拉脱维亚语和Giriama语中的知识表示和推理能力。数据集的使用方法包括动态提示工程、数据集过滤和评分指标(如精确匹配和选择题评估),以模块化的方式评估模型的性能。
背景与挑战
背景概述
LAG-MMLU数据集是由Naome A. Etori等人于2025年提出的,旨在评估大型语言模型(LLMs)在拉脱维亚语和吉里亚马语等低资源语言(LRLs)中的多任务语言理解能力。该数据集基于Massive Multitask Language Understanding(MMLU)基准,通过人工翻译和机器翻译结合的方式,生成了包含500个问题的子集,涵盖55个学科领域。LAG-MMLU的创建填补了现有基准在非洲和东欧低资源语言评估中的空白,特别是首次为吉里亚马语提供了标准化的评估框架。该数据集的研究背景反映了当前LLMs在多语言理解中的局限性,尤其是在低资源语言上的表现不足,推动了多语言评估框架的进一步发展。
当前挑战
LAG-MMLU数据集面临的挑战主要体现在两个方面。首先,该数据集旨在解决LLMs在低资源语言上的表现问题,尤其是吉里亚马语和拉脱维亚语等语言的文化和语言复杂性。这些语言的数字资源有限,且文化背景与英语等主流语言差异较大,导致模型在理解和推理时表现不佳。其次,数据集的构建过程中也面临诸多挑战,包括机器翻译的准确性问题、文化特定内容的翻译难度,以及缺乏高质量的人工翻译资源。尽管通过人工校对和编辑部分缓解了这些问题,但自动翻译引入的偏差和噪声仍然影响了数据集的可靠性。此外,数据集的样本量较小,限制了其泛化能力,且缺乏正式的质量控制机制,如标注者间一致性评估,进一步增加了评估结果的复杂性。
常用场景
经典使用场景
LAG-MMLU数据集主要用于评估大型语言模型(LLMs)在低资源语言(如拉脱维亚语和吉里亚马语)中的多任务语言理解能力。通过从Massive Multitask Language Understanding(MMLU)基准中筛选出的500个多选问题,LAG-MMLU为研究者提供了一个标准化的评估框架,用于测试模型在跨语言、跨文化背景下的知识推理和问题解决能力。该数据集特别适用于零样本和少样本学习场景,帮助研究者分析模型在不同语言环境中的表现差异。
衍生相关工作
LAG-MMLU数据集的推出催生了一系列相关研究工作,特别是在低资源语言评估领域。例如,基于LAG-MMLU的研究进一步探索了链式思维(CoT)提示对模型性能的提升效果,尤其是在拉脱维亚语和吉里亚马语中的表现。此外,该数据集还启发了更多针对非洲和东欧语言的基准测试开发,如ArabicMMLU和IndoMMLU。这些工作不仅扩展了多语言评估的覆盖范围,还为未来的低资源语言研究提供了宝贵的参考框架,推动了多语言模型的公平性和包容性发展。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLMs)在多语言任务中的广泛应用,评估其在低资源语言(LRLs)中的表现成为研究热点。LAG-MMLU数据集通过引入拉脱维亚语和吉里亚马语,填补了现有评估框架在低资源语言上的空白。研究表明,尽管OpenAI的o1模型在英语、拉脱维亚语和吉里亚马语中均表现出色,但在低资源语言上的表现仍显著低于高资源语言。这一发现强调了开发本地化基准和人工评估的重要性,以推动文化敏感的AI发展。此外,链式思维(CoT)提示显著提升了模型在拉脱维亚语和吉里亚马语上的表现,尤其是在少样本学习场景中。LAG-MMLU的推出不仅为低资源语言的研究提供了新的评估工具,也为未来多语言模型的优化和跨文化理解提供了重要参考。
相关研究论文
- 1LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama明尼苏达大学双城校区, 独立研究员, 贝拉明学院预科, Masakhane · 2025年
以上内容由遇见数据集搜集并总结生成



