MMMLU_subset

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/double7/MMMLU_subset

下载链接

链接失效反馈

官方服务：

资源简介：

MMMLU是一个多语言大规模多任务语言理解数据集，包含57个不同类别的话题，从基础知识到高级专业知识。该数据集的测试集已经被翻译成14种语言，包括阿拉伯语、孟加拉语、德语、西班牙语、法语、印地语、印度尼西亚语、意大利语、日语、韩语、巴西葡萄牙语、斯瓦希里语、约鲁巴语和简体中文，旨在提高AI模型的多语言能力并确保其在不同语言中的准确表现。

创建时间：

2025-06-06

搜集汇总

数据集介绍

构建方式

在人工智能多语言评估领域，MMMLU_subset数据集通过专业人工翻译的方式构建而成。该数据集从原始MMLU基准中系统抽取10%的样本，并由专业译者团队将其精准翻译为14种语言，涵盖阿拉伯语、中文、日语等主要语种及约鲁巴语等低资源语言。这种构建方式既保证了翻译质量，又通过分层抽样确保了学科分布的均衡性，为多语言模型评估提供了高可信度的数据基础。

特点

该数据集最显著的特征在于其多维度分类体系，既按语言区域划分为14种语言变体，又依照学科领域细分为STEM、人文科学、社会科学及其他四大类别。这种双维度分类结构使得研究者能够精确评估模型在特定语言和学科交叉领域的表现。数据集覆盖从基础常识到专业学科的57个知识领域，为全面衡量模型的多语言理解能力提供了丰富而细致的评估场景。

使用方法

研究人员可通过HuggingFace平台直接加载特定语言或学科配置的数据子集，例如使用DE_DE配置加载德语测试集，或通过STEM配置获取科学类试题。每个数据文件采用CSV格式存储，包含原始问题、多项选择选项及标准答案。该数据集专为模型零样本评估设计，可通过准确率等指标系统衡量模型在不同语言和学科组合下的知识掌握程度，为多语言AI系统的性能优化提供精准的基准参照。

背景与挑战

背景概述

人工智能领域的多语言理解能力评估一直是自然语言处理研究的核心议题。MMMLU_subset数据集源于2021年由Hendrycks等学者提出的MMLU基准测试，通过专业人工翻译将原英文测试集转化为14种语言版本，涵盖从STEM学科到人文学科的57个专业领域。该数据集由OpenAI等机构参与构建，致力于推动多语言大模型在跨语言知识理解方面的性能评估，特别关注低资源语言如约鲁巴语的包容性发展。

当前挑战

该数据集旨在解决多语言问答任务中模型跨语言知识迁移与文化适配的复杂性挑战，包括专业术语的准确转换和学科知识的文化语境适配。构建过程中面临双重挑战：一是确保低资源语言翻译的学术准确性，需要协调专业译者与领域专家共同验证；二是维持原始MMLU数据集的学科平衡性，在抽样过程中需精确控制各语言版本中STEM、人文学科等四大类目的分布比例。

常用场景

经典使用场景

在多语言自然语言处理研究中，MMMLU_subset数据集作为评估模型跨语言知识理解能力的重要基准。该数据集通过专业人工翻译将原始MMLU测试集转化为14种语言版本，涵盖STEM、人文学科、社会科学等多个学科领域，为研究者提供了标准化多语言问答评估框架。其经典应用场景包括测量多语言大模型在专业领域的知识掌握程度，以及对比不同语言版本下的模型性能表现。

衍生相关工作

基于该数据集衍生的经典研究包括多语言知识对齐算法开发、低资源语言模型增强技术等创新工作。研究者利用其细粒度的学科分类和语言对比特性，提出了跨语言知识蒸馏、多语言提示学习等前沿方法。这些工作显著提升了模型在非英语环境下的性能，推动了如XLM-R、mT5等多语言基础模型的迭代优化，形成了多语言评估技术体系的重要分支。

数据集最近研究