lighteval/mmlu

Name: lighteval/mmlu
Creator: lighteval
Published: 2023-06-09 16:36:19
License: 暂无描述

Hugging Face2023-06-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lighteval/mmlu

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Measuring Massive Multitask Language Understanding (MMLU)，旨在进行多项选择题的问答任务。数据集涵盖了广泛的学科领域，包括抽象代数、解剖学、天文学、商业伦理、临床知识等。数据集为单语（英语），包含多个配置，每个配置都有问题、选项和答案等特征。数据集被分为辅助训练集、测试集、验证集和开发集，每个部分都有详细的字节数和示例数信息。

提供机构：

lighteval

原始信息汇总

数据集概述

基本信息

语言: 英语（en）
许可证: MIT
多语言性: 单语
大小: 10K<n<100K
来源: 原始数据
任务类别: 问答
任务ID: 多项选择问答（multiple-choice-qa）
PapersWithCode ID: mmlu
美观名称: Measuring Massive Multitask Language Understanding

数据集结构

配置名称: 多个主题，包括抽象代数、解剖学、天文学等
特征:
- 问题: 字符串类型
- 选择: 字符串序列
- 答案: 分类标签，选项为A、B、C、D
分割:
- 辅助训练: 数据量和示例数最多
- 测试: 示例数较少，用于评估
- 验证: 示例数较少，用于模型调整
- 开发: 示例数最少，用于初步测试

数据集大小

下载大小: 166184960字节
数据集大小: 根据不同配置名称变化，范围从160623559字节到161030377字节不等

数据集详细配置

配置名称: 抽象代数

分割:
- 辅助训练: 99842示例
- 测试: 100示例
- 验证: 11示例
- 开发: 5示例

配置名称: 解剖学

分割:
- 辅助训练: 99842示例
- 测试: 135示例
- 验证: 14示例
- 开发: 5示例

配置名称: 天文学

分割:
- 辅助训练: 99842示例
- 测试: 152示例
- 验证: 16示例
- 开发: 5示例

配置名称: 商业伦理

分割:
- 辅助训练: 99842示例
- 测试: 100示例
- 验证: 11示例
- 开发: 5示例

配置名称: 临床知识

分割:
- 辅助训练: 99842示例
- 测试: 265示例
- 验证: 29示例
- 开发: 5示例

配置名称: 大学生物学

分割:
- 辅助训练: 99842示例
- 测试: 144示例
- 验证: 16示例
- 开发: 5示例

配置名称: 大学化学

分割:
- 辅助训练: 99842示例
- 测试: 100示例
- 验证: 8示例
- 开发: 5示例

配置名称: 大学计算机科学

分割:
- 辅助训练: 99842示例
- 测试: 100示例
- 验证: 11示例
- 开发: 5示例

配置名称: 大学数学

分割:
- 辅助训练: 99842示例
- 测试: 100示例
- 验证: 11示例
- 开发: 5示例

配置名称: 大学医学

分割:
- 辅助训练: 99842示例
- 测试: 173示例
- 验证: 22示例
- 开发: 5示例

配置名称: 大学物理

分割:
- 辅助训练: 99842示例
- 测试: 102示例
- 验证: 11示例
- 开发: 5示例

配置名称: 计算机安全

分割:
- 辅助训练: 99842示例
- 测试: 100示例
- 验证: 11示例
- 开发: 5示例

配置名称: 概念物理学

分割:
- 辅助训练: 99842示例
- 测试: 235示例
- 验证: 26示例
- 开发: 5示例

配置名称: 计量经济学

分割:
- 辅助训练: 99842示例
- 测试: 114示例
- 验证: 12示例
- 开发: 5示例

配置名称: 电气工程

分割:
- 辅助训练: 99842示例
- 测试: 145示例
- 验证: 16示例
- 开发: 5示例

配置名称: 初等数学

分割:
- 辅助训练: 99842示例
- 测试: 378示例
- 验证: 41示例
- 开发: 5示例

配置名称: 形式逻辑

分割:
- 辅助训练: 99842示例
- 测试: 126示例
- 验证: 14示例
- 开发: 5示例

配置名称: 全球事实

分割:
- 辅助训练: 99842示例
- 测试: 100示例
- 验证: 10示例
- 开发: 5示例

配置名称: 高中生物学

分割:
- 辅助训练: 99842示例
- 测试: 310示例
- 验证: 32示例
- 开发: 5示例

配置名称: 高中化学

分割:
- 辅助训练: 99842示例
- 测试: 203示例
- 验证: 22示例
- 开发: 5示例

配置名称: 高中计算机科学

分割:
- 辅助训练: 99842示例
- 测试: 100示例
- 验证: 9示例
- 开发: 5示例

配置名称: 高中欧洲历史

分割:
- 辅助训练: 99842示例
- 测试: 165示例
- 验证: 18示例
- 开发: 5示例

配置名称: 高中地理

分割:
- 辅助训练: 99842示例
- 测试: 198示例
- 验证: 22示例
- 开发: 5示例

配置名称: 高中政府与政治

分割:
- 辅助训练: 99842示例
- 测试: 193示例
- 验证: 21示例
- 开发: 5示例

配置名称: 高中宏观经济学

分割:
- 辅助训练: 99842示例
- 测试: 390示例
- 验证: 43示例
- 开发: 5示例

配置名称: 高中数学

分割:
- 辅助训练: 99842示例
- 测试: 270示例
- 验证: 29示例
- 开发: 5示例

配置名称: 高中微观经济学

分割:
- 辅助训练: 99842示例
- 测试: 238示例
- 验证: 26示例
- 开发: 5示例

配置名称: 高中物理

分割:
- 辅助训练: 99842示例
- 测试: 151示例
- 验证: 17示例
- 开发: 5示例

配置名称: 高中心理学

分割:
- 辅助训练: 99842示例
- 测试: 545示例
- 验证: 60示例
- 开发: 5示例

配置名称: 高中统计学

分割:
- 辅助训练: 99842示例
- 测试: 216示例
- 验证: 23示例
- 开发: 5示例

配置名称: 高中美国历史

分割:
- 辅助训练: 99842示例
- 测试: 204示例
- 验证: 22示例
- 开发: 5示例

配置名称: 高中世界历史

分割:
- 辅助训练: 99842示例
- 测试: 237示例
- 验证: 26示例
- 开发: 5示例

配置名称: 人类老化

分割:
- 辅助训练: 99842示例
- 测试: 223示例
- 验证: 23示例
- 开发: 5示例

配置名称: 人类性学

分割:
- 辅助训练: 99842示例
- 测试: 131示例
- 验证: 12示例
- 开发: 5示例

配置名称: 国际法

分割:
- 辅助训练: 99842示例
- 测试: 示例数未完整提供
- 验证: 示例数未完整提供
- 开发: 示例数未完整提供

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型的多任务理解能力至关重要。MMLU数据集由专家精心构建，涵盖57个学科主题，通过收集高质量的多项选择题，确保问题反映真实世界知识。构建过程强调学科多样性，题目源自教科书、考试和学术资源，每个条目包含问题、四个选项及标准答案，形成结构化的评估框架。数据集划分为辅助训练集、验证集和测试集，支持模型在广泛知识领域的系统性评估。

特点

该数据集以其大规模和学科广度著称，覆盖从基础数学到专业医学的多元领域，体现跨学科知识整合。每个主题独立配置，题目设计注重深度与复杂性，挑战模型的理解和推理能力。数据以英文呈现，保持语言一致性，同时通过标准化的多项选择格式，便于量化评估。其结构支持细粒度分析，允许研究者探究模型在特定领域的表现差异，为语言模型的综合能力评估提供丰富维度。

使用方法

使用MMLU数据集时，研究者可加载特定学科配置，如抽象代数或临床知识，进行模型预测与评估。典型流程包括预处理问题与选项，输入语言模型生成答案，并与标准标签比对计算准确率。数据集支持零样本、少样本及微调实验，通过划分的训练与测试集，验证模型泛化性能。其标准化接口便于集成到现有评估框架，助力模型在复杂知识任务上的性能优化与比较研究。

背景与挑战

背景概述

在人工智能领域，大规模语言模型的理解能力评估一直是核心研究议题。MMLU（Measuring Massive Multitask Language Understanding）数据集由Dan Hendrycks等研究人员于2020年创建，旨在系统性地衡量模型在广泛学科知识上的理解水平。该数据集覆盖了从基础数学到专业医学等57个学科领域，通过多项选择题形式，挑战模型的多任务学习与推理能力。其构建不仅推动了模型评估从单一任务向跨领域综合理解的转变，更成为衡量模型通用智能的重要基准，对自然语言处理领域的进展产生了深远影响。

当前挑战

MMLU数据集致力于解决模型在多样化知识领域中的理解与推理挑战，其核心问题在于评估模型能否像人类一样掌握跨学科知识并进行准确判断。构建过程中的挑战主要体现在数据收集与质量控制上：需要从大量专业资料中提取涵盖57个学科的高质量题目，确保问题表述的准确性与选项的合理性；同时，平衡各学科题目的数量与难度，避免偏差，以构建一个全面且公正的评估基准。这些挑战使得数据集的创建成为一项复杂而精细的工程。

常用场景

经典使用场景

在自然语言处理领域，评估模型的多任务理解能力一直是核心挑战。MMLU数据集通过涵盖57个学科领域的多项选择题，为大规模语言模型提供了一个标准化的基准测试平台。其经典使用场景在于系统性地衡量模型在广泛学科知识上的综合表现，从基础数学到专业医学，模型需展示跨领域的推理与知识应用能力。这一设计使得研究者能够深入分析模型在不同认知层次上的强弱项，为模型优化提供精确的指导方向。

解决学术问题

传统语言模型评估往往局限于狭窄领域，难以全面反映模型的真实理解水平。MMLU数据集有效解决了这一学术困境，它通过构建一个覆盖人文、社科、理工等多维度的知识体系，挑战模型在复杂语境下的泛化能力。该数据集的意义在于推动了评估范式从单一任务向多任务协同的转变，促使研究社区关注模型的结构化知识整合与迁移学习机制，为人工智能的通用智能发展奠定了坚实的实证基础。

衍生相关工作

围绕MMLU数据集，学术界衍生了一系列经典研究工作。例如，研究者开发了基于思维链提示的策略，显著提升了模型在复杂推理任务上的表现；同时，多模态学习框架被引入，将文本知识与视觉信息相结合，拓展了评估维度。这些工作不仅深化了对模型认知机制的理解，还催生了如知识增强预训练和动态评估协议等创新方法，持续推动着语言智能评估技术的前沿发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集