mmlu

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/rvashurin/mmlu

下载链接

链接失效反馈

官方服务：

资源简介：

mmlu数据集的预处理版本，适用于LM-Polygraph基准测试。包含多个子集，每个子集都有训练和测试两部分，提供处理过的输入和输出字符串。

A preprocessed version of the MMLU dataset, tailored for the LM-Polygraph benchmark. It includes multiple subsets, each containing both training and test splits, with processed input and output strings provided.

创建时间：

2025-08-12

原始信息汇总

数据集概述：mmlu

数据集详情

维护者：LM-Polygraph (https://huggingface.co/LM-Polygraph)
许可证：LM-Polygraph项目许可证 (https://github.com/IINemo/lm-polygraph/blob/main/LICENSE.md)
来源仓库：LM-Polygraph项目 (https://github.com/IINemo/lm-polygraph)

数据集用途

直接用途：用于在LM-Polygraph中进行基准测试。
非适用范围：不应用于进一步的数据集预处理。

数据集结构

配置数量：9种不同配置
通用特征：
- input (string)
- output (string)
- stripped_input (string)
通用分割：
- train
- test

配置详情

continuation
- train样本数：1,461
- test样本数：5,700
- 下载大小：4,840,337字节
- 数据集大小：21,584,413字节
empirical_baselines
- train样本数：1,461
- test样本数：5,700
- 下载大小：5,040,713字节
- 数据集大小：23,653,942字节
ling_1s
- train样本数：1,461
- test样本数：5,700
- 下载大小：5,570,204字节
- 数据集大小：28,924,438字节
simple_instruct
- train样本数：1,461
- test样本数：5,700
- 下载大小：5,020,961字节
- 数据集大小：23,403,307字节
verb_1s_top1
- train样本数：1,461
- test样本数：5,700
- 下载大小：5,425,936字节
- 数据集大小：27,907,576字节
verb_1s_topk
- train样本数：1,461
- test样本数：5,700
- 下载大小：5,691,415字节
- 数据集大小：31,087,060字节
verb_2s_cot
- train样本数：1,461
- test样本数：5,700
- 下载大小：5,335,746字节
- 数据集大小：27,169,993字节
verb_2s_top1
- train样本数：1,461
- test样本数：5,700
- 下载大小：5,040,713字节
- 数据集大小：23,653,942字节
verb_2s_topk
- train样本数：1,461
- test样本数：5,700
- 下载大小：5,161,457字节
- 数据集大小：25,121,947字节

数据集创建

创建理由：将数据集创建代码与基准测试代码分离。
源数据：来自https://huggingface.co/datasets/mmlu
处理工具：使用LM-Polygraph仓库中的build_dataset.py脚本处理

偏见、风险与限制

与源数据集https://huggingface.co/datasets/mmlu具有相同的偏见、风险和限制
建议：用户应了解数据集的风险、偏见和限制

搜集汇总

数据集介绍

构建方式

mmlu数据集作为语言模型评估领域的重要基准，其构建过程体现了严谨的学术规范。该数据集源自原始mmlu数据集，经由LM-Polygraph团队采用专用脚本进行系统化重构，通过数据清洗和格式转换等处理流程，将原始数据转化为适用于语言模型多维度评估的结构化格式。构建过程中严格划分训练集（1461个样本）和测试集（5700个样本），并针对不同评估场景衍生出9种配置变体，包括continuation、empirical_baselines等多种评估模式。

使用方法

作为专为LM-Polygraph基准测试设计的评估体系，该数据集推荐采用对照实验的研究范式。使用者可加载不同配置的子集，通过对比模型在continuation基础配置与verb_2s_cot等复杂配置下的表现差异，全面评估语言模型的推理能力。数据集的标准化输入输出格式确保与主流语言模型框架无缝对接，测试集的5700个样本为统计显著性提供了可靠保障。需要特别注意的是，为避免数据污染，该数据集应严格用于最终评估而非训练过程。

背景与挑战

背景概述

MMLU数据集作为语言模型评估领域的重要基准，由LM-Polygraph团队基于原始MMLU数据进行二次加工构建而成，旨在为语言模型的全面性能评估提供标准化测试环境。该数据集通过多配置架构设计，涵盖continuation、empirical_baselines等多种任务模式，反映了自然语言处理领域对模型跨领域知识掌握能力的迫切需求。其构建理念源于将数据集预处理与基准测试流程解耦的学术思想，这种模块化设计显著提升了语言模型评估实验的可复现性，为后续研究提供了可靠的对比基线。

当前挑战

该数据集面临的核心挑战体现在评估维度与数据质量两个层面。在学术评估层面，如何准确衡量语言模型在57个专业学科领域的知识边界仍存在方法论争议，特别是在处理医学、法律等高风险领域时，模型输出的可靠性验证机制亟待完善。在数据构建层面，原始数据的领域分布均衡性、标注一致性等问题会通过预处理流程传导至下游任务，而指令微调变体（如verb_2s_cot等配置）的引入又带来了提示词敏感性的新挑战。此外，测试集5700个样本的规模虽具统计意义，但对于某些低频知识领域的覆盖度仍显不足。

常用场景

经典使用场景

在自然语言处理领域，mmlu数据集被广泛用于评估语言模型的多任务学习能力。其经典使用场景包括测试模型在57个不同学科领域的知识掌握程度，涵盖从基础数学到专业医学的广泛主题。研究者通过该数据集可系统分析模型在零样本、小样本等设置下的跨领域泛化性能。

解决学术问题

mmlu数据集有效解决了大规模语言模型评估中缺乏标准化跨学科基准的学术难题。通过构建覆盖STEM、人文、社科等领域的专业测试集，该数据集为衡量模型的知识广度与推理深度提供了量化工具。其细粒度学科分类特性，使得研究者能够精准定位模型的知识盲区。

实际应用

该数据集在智能教育系统和专业领域问答系统中展现出重要应用价值。教育科技公司利用其学科分类特性开发自适应学习系统，医疗健康领域则通过专业子集评估临床问答模型的可靠性。其标准化测试框架也被企业用于产品化语言模型的准入测试。

数据集最近研究