five

MMLU-ProX|多语言处理数据集|自然语言推理数据集

收藏
arXiv2025-03-13 更新2025-03-15 收录
多语言处理
自然语言推理
下载链接:
https://mmluprox.github.io/
下载链接
链接失效反馈
资源简介:
MMLU-ProX是一个全面的多语言基准,包含13种类型多样的语言,每种语言大约有11829个问题。该数据集在MMLU-Pro的基础上构建,保持了其高难度和推理关注的设计,同时扩展了语言覆盖范围。MMLU-ProX通过半自动化的翻译过程,确保了概念准确性、术语一致性和文化相关性。该数据集的创建目的是为了评估大型语言模型在多语言环境下的推理能力,目前仍在持续扩展中。
提供机构:
东京大学
创建时间:
2025-03-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMLU-ProX数据集的构建方式采取了半自动翻译流程,首先由Claude 3.7 Sonnet等先进的大型语言模型生成初始翻译,然后经过模型自身的自我反思,评估翻译的术语准确性和内容保持情况。接着,GPT-4o等模型会对Claude的翻译进行独立评估和细化。此外,针对某些语言模型在特定语言上表现不佳的情况,还实施了额外的验证协议。在整个翻译流程中,只有通过专家验证的翻译才会被纳入最终的基准数据集,以确保翻译质量。
使用方法
使用MMLU-ProX数据集时,首先需要了解数据集的构成和特点,然后根据研究需求选择合适的问题进行评估。可以使用5-shot chain-of-thought (CoT) 和 zero-shot prompting策略对LLM进行评估,并分析其在不同语言和文化背景下的性能表现。此外,还可以使用MMLU-ProX数据集来研究LLM的推理能力,并探索提高模型跨语言推理能力的途径。
背景与挑战
背景概述
随着大型语言模型(LLMs)的不断进步和应用领域的日益广泛,评估这些模型在不同语言和文化背景下的性能变得至关重要。MMLU-ProX数据集应运而生,旨在解决传统基准在多语言和文化多样性环境下的评估难题。该数据集由东京大学、杜克-新加坡国立大学医学院、早稻田大学、西北大学、卡内基梅隆大学、南洋理工大学、耶鲁大学和日内瓦大学的研究人员共同创建。MMLU-ProX覆盖了13种类型多样且具有代表性的语言,每个语言包含约11,829个问题。这一数据集的创建不仅增强了MMLU-Pro的复杂性和推理导向设计,还通过半自动翻译流程确保了概念准确性、术语一致性和文化相关性。MMLU-ProX的推出对评估高级语言模型的跨语言推理能力具有重要意义,为多语言人工智能技术的公平性和全球可访问性提供了新的标准。
当前挑战
尽管MMLU-ProX在多语言评估方面取得了显著进展,但仍然面临着一些挑战。首先,如何解决不同资源语言之间的性能差距是一个关键问题。实验结果表明,即使是性能最先进的模型,在高资源语言和低资源语言之间的表现也存在显著差异。其次,构建过程中所遇到的挑战包括确保翻译质量、概念准确性、术语一致性以及文化相关性。MMLU-ProX采用了半自动翻译流程,通过专家验证来确保翻译质量,但这一过程需要大量的资源和时间。此外,模型评估策略的选择也对评估结果有显著影响,例如5-shot chain-of-thought (CoT) 和 zero-shot prompting策略对模型表现有不同的影响。因此,MMLU-ProX的挑战不仅在于如何构建一个高质量的多语言基准,还包括如何更有效地评估模型,以及如何推动多语言人工智能技术的进步。
常用场景
经典使用场景
MMLU-ProX数据集被广泛应用于评估大型语言模型(LLMs)在多语言和文化多样性环境中的表现。该数据集包含13种不同类型的语言,每种语言大约有11,829个问题,覆盖了从高资源到低资源的语言。MMLU-ProX通过半自动翻译过程,结合了由最先进的LLMs生成的翻译和专家标注者的严格评估,确保了概念准确性、术语一致性和文化相关性。这使得MMLU-ProX成为一个强大的工具,用于评估LLMs的跨语言推理能力,并揭示了在多语言环境中开发真正多语言AI系统所面临的持续挑战。
解决学术问题
MMLU-ProX数据集解决了传统基准在评估日益复杂的多语言和文化多样性环境中的语言模型时面临的挑战。通过引入半自动翻译过程和专家标注者的严格评估,MMLU-ProX确保了翻译的质量和准确性,从而提高了多语言基准的可靠性和公平性。此外,MMLU-ProX还揭示了LLMs在处理高资源和低资源语言时的性能差距,这为研究人员和从业者提供了有价值的见解,以改进模型开发并在多语言环境中进行更公平和可访问的语言技术部署。
实际应用
MMLU-ProX数据集在实际应用中具有广泛的应用前景。它可以帮助研究人员和从业者评估LLMs在多语言环境中的性能,并指导模型开发和部署。此外,MMLU-ProX还可以用于评估和改进LLMs的跨语言推理能力,以支持更公平和可访问的语言技术。通过使用MMLU-ProX数据集,研究人员和从业者可以更好地理解LLMs在不同语言和文化背景下的表现,并开发出能够满足不同用户需求的语言模型。
数据集最近研究
最新研究方向
MMLU-ProX数据集的研究方向主要集中在多语言大型语言模型(LLMs)的跨语言推理能力评估上。该数据集扩展了MMLU-Pro的挑战性推理设计,覆盖了13种类型多样的语言,并使用了半自动化的翻译流程,确保了翻译的质量和文化的相关性。通过5-shot chain-of-thought (CoT)和zero-shot prompting策略,对25个最先进的LLMs进行了全面评估,发现模型在资源丰富的语言和高资源语言之间存在着显著的性能差距。MMLU-ProX的引入,为研究者提供了一个强大的工具来评估LLMs的跨语言推理能力,并为多语言环境中模型的发展和部署提供了有价值的见解。未来的工作将集中在扩展MMLU-ProX到更多语言,并评估新兴的LLMs模型。
相关研究论文
  • 1
    MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation东京大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

FSDD

FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

LSUI (Large Scale Underwater Image Dataset)

We released a large-scale underwater image (LSUI) dataset including 5004 image pairs, which involve richer underwater scenes (lighting conditions, water types and target categories) and better visual quality reference images than the existing ones.

Papers with Code 收录