MMLU-ProX

github2025-03-13 更新2025-03-14 收录

下载链接：

https://github.com/weihao1115/MMLU-ProX

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU-ProX 是一个多语言基准，建立在 MMLU-Pro 的基础上，扩展到 13 种类型多样的语言，旨在评估大型语言模型在跨语言和文化边界时的推理能力。MMLU-ProX 通过扩展到 13 种类型多样的语言、建立在 MMLU-Pro 的挑战性推理设计基础上、采用严格的半自动翻译过程并经过专家验证、确保概念准确性、术语一致性和文化相关性，解决了现有多语言基准的关键限制。

MMLU-ProX is a multilingual benchmark built upon MMLU-Pro, which has been extended to cover 13 diverse languages, aiming to evaluate the reasoning capabilities of large language models (LLMs) across cross-lingual and cross-cultural boundaries. MMLU-ProX addresses the key limitations of existing multilingual benchmarks by extending its coverage to 13 diverse languages, leveraging the challenging reasoning design of MMLU-Pro, adopting a rigorous semi-automatic translation process verified by experts, and ensuring conceptual accuracy, terminological consistency and cultural relevance.

创建时间：

2025-03-13

原始信息汇总

MMLU-ProX: 多语言大型语言模型评估基准

Overview

数据集名称：MMLU-ProX
数据集类型：多语言基准测试
语言覆盖：13种类型不同的语言
设计目的：评估大型语言模型在语言和文化边界上的推理能力
改进点：
- 扩展至13种类型不同的语言
- 基于MMLU-Pro的具有挑战性的推理聚焦设计
- 采用严格的半自动翻译过程，并经过专家验证
- 确保概念准确性、术语一致性和文化相关性

News

[2025年3月] MMLU-ProX已在Hugging Face上发布！
[2025年3月] 我们仍在扩展此数据集以支持更多语言！敬请期待。

Usage

使用说明：即将推出

Citation

引用信息：即将推出

Contact

联系方式：如有关于MMLU-ProX的问题或反馈，请提交一个issue。

搜集汇总

数据集介绍

构建方式

MMLU-ProX数据集在MMLU-Pro的基础上，扩展至13种类型各异的语系，旨在评估大型语言模型跨语言和文化边界的推理能力。该数据集采用严格的半自动翻译流程，并经过专家验证，以确保概念准确性、术语一致性和文化相关性。

使用方法

MMLU-ProX数据集的使用方法尚在公布中，但预计将提供在Hugging Face平台上的访问方式，用户可以通过该平台获取数据集并进行相关研究。

背景与挑战

背景概述

MMLU-ProX数据集是在MMLU-Pro的基础上发展起来的，它是一个多语言基准测试，旨在评估大型语言模型在跨越语言和文化边界的推理能力。该数据集由东京大学、杜克-新加坡国立大学、早稻田大学等知名学术机构的科研人员共同开发，并于2025年3月正式在Hugging Face平台发布。MMLU-ProX的创建，是为了解决现有多语言基准测试中的关键局限性，它扩展到13种类型各异的语言，采用严格的半自动翻译过程，并通过专家验证，确保了概念准确性、术语一致性和文化相关性。

当前挑战

MMLU-ProX数据集面临的挑战主要体现在两个方面：一是如何确保在多种语言和文化背景下，语言模型的推理能力评估的准确性和公平性；二是数据集构建过程中，如何处理和解决由于语言多样性带来的翻译和质量控制问题。此外，该数据集还需要不断地扩展到更多语言，以增强其普遍性和实用性。

常用场景

经典使用场景

MMLU-ProX作为一项旨在评估大型语言模型跨语言和文化边界的推理能力的多语言基准，其经典使用场景在于对语言模型进行跨语言理解与推理能力的测试。通过包含13种类型各异的语言的广泛问题，该数据集为研究人员提供了一个全面的平台，以评估模型在不同语言和文化背景下处理复杂任务的能力。

解决学术问题

该数据集解决了多语言环境中语言模型评价标准不一、缺乏跨文化推理能力评估的问题。MMLU-ProX通过其精心设计的题目和严格的半自动翻译流程，确保了概念准确性、术语一致性和文化相关性，从而为学术研究提供了可靠的评价基准，推进了多语言语言模型的研究进展。

实际应用

在实际应用中，MMLU-ProX可被用于筛选和比较不同语言模型在多语言环境下的表现，指导模型的选择和优化。此外，它还为多语言信息检索、机器翻译质量评估以及跨语言自然语言处理任务提供了有效的数据支撑，具有广泛的应用价值。

数据集最近研究