MMLU-ProX-Lite

Name: MMLU-ProX-Lite
Creator: LiLab
Published: 2025-05-18 22:19:32
License: 暂无描述

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/li-lab/MMLU-ProX-Lite

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多语言的数据集，包含了不同语言的文本数据。每个配置(config)都有相同的特征(features)，包括问题ID、问题、选项、答案、答案索引、上下文内容、类别、来源和问题来源ID。数据集还包含了验证集和测试集的大小和示例数量。每种语言的配置都有各自的下载大小和数据集大小。

提供机构：

LiLab

创建时间：

2025-05-18

原始信息汇总

数据集概述：MMLU-ProX-Lite

数据集基本信息

数据集地址：https://huggingface.co/datasets/li-lab/MMLU-ProX-Lite
多语言支持：包含20种语言配置（af, ar, bn, cs, de, en, es, fr, hi, hu, id, it, ja, ko, mr, ne, pt, ru, sr, sw, te, th, uk）

数据结构

通用特征

所有语言配置包含以下字段：

question_id (int64): 问题唯一标识符
question (string): 问题文本
option_0到option_9 (string): 最多10个选项
answer (string): 正确答案文本
answer_index (int64): 正确答案索引
cot_content (string): 思维链内容
category (string): 问题类别
src (string): 数据来源
question_id_src (int64): 源数据集问题ID

数据划分

每个语言配置包含：

验证集：70个样本
测试集：588个样本

语言配置示例（以英语en为例）

验证集：
- 样本数：70
- 数据大小：61,443字节
测试集：
- 样本数：588
- 数据大小：435,353字节
下载大小：685,020字节
数据集总大小：496,796字节

其他语言典型特征

亚洲语言（如日语ja、韩语ko）：
- 平均测试集大小：450,000-470,000字节
印度语言（如印地语hi、孟加拉语bn）：
- 测试集大小超过900,000字节
斯拉夫语言（如俄语ru）：
- 测试集大小约742,374字节

技术规格

最大数据集：泰卢固语te（1,133,329字节）
最小数据集：斯瓦希里语sw（496,638字节）
标准测试集样本量：所有语言统一588个样本

搜集汇总

数据集介绍

构建方式

MMLU-ProX-Lite数据集通过多语言多领域的知识问答构建而成，涵盖包括英语、法语、德语等在内的多种语言版本。每个语言版本均包含验证集和测试集，验证集包含70个样本，测试集包含588个样本。数据集的构建采用了标准化的问答格式，每个问题附带最多10个选项，并标注了正确答案及其索引。此外，数据集还提供了思维链内容（cot_content），增强了模型推理能力的评估维度。

使用方法

使用MMLU-ProX-Lite数据集时，可通过HuggingFace平台直接下载所需语言版本。数据集已预先划分为验证集和测试集，用户可依据需求加载相应部分。每个样本包含问题、选项、答案及思维链内容，适用于多语言问答模型的训练与评估。数据集的标准化格式便于集成到现有机器学习流程中，支持多种自然语言处理任务的基准测试。

背景与挑战

背景概述

MMLU-ProX-Lite数据集是多语言多任务理解领域的重要资源，旨在评估模型在跨语言和跨学科场景下的推理能力。该数据集由国际研究团队构建，覆盖包括英语、中文、西班牙语等在内的多种语言，每个语言配置包含验证集和测试集，涵盖广泛的学科类别。其核心研究问题聚焦于提升模型在复杂语境下的理解和推理能力，为自然语言处理领域的多语言模型评估提供了标准化基准。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性要求模型具备跨学科知识整合能力，而多语言特性则对模型的语义对齐和跨文化理解提出更高要求。构建过程中的挑战包括：多语言数据采集的均衡性与代表性难以保证，部分低资源语言样本稀缺；标注过程中需处理文化差异导致的语义歧义；推理链（cot_content）的生成需要领域专家参与，成本高昂且难以规模化。

常用场景

经典使用场景

在自然语言处理领域，MMLU-ProX-Lite数据集作为多语言多任务评估基准，主要用于测试模型在跨语言理解和推理任务中的表现。其包含的多样化题目类型和丰富的语言选项，使得研究者能够系统评估模型在不同语言和文化背景下的知识掌握程度和逻辑推理能力。

解决学术问题

该数据集有效解决了多语言模型评估中数据稀缺和评估维度单一的学术难题。通过覆盖57个学科领域和20种语言的问题集，为研究者提供了量化模型跨语言迁移能力和领域适应性的标准化工具，填补了传统评估方法在文化多样性方面的空白。

实际应用

在实际应用中，教育科技公司利用该数据集优化智能辅导系统的多语言问题解答模块；跨国企业将其用于评估客服机器人的跨文化沟通能力；语言学习平台则基于其构建自适应测试系统，精准检测学习者的多语言理解水平。

数据集最近研究