MMLU-NGRAM

Hugging Face2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/hudsongouge/MMLU-NGRAM

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU-NGRAM数据集包含了将问题分割成1到4个n-gram的MMLU问题。在这里使用的n-gram通过空格分隔，且所有长度小于或等于n的单词保持不变。该数据集的目的是为了评估当问题以非常规且难以阅读的格式呈现时，LLM的表现。数据集提供了不同模型在不同n-gram大小下的基准测试结果。

创建时间：

2025-07-15

原始信息汇总

数据集概述：MMLU-NGRAM

基本信息

许可证: Apache-2.0
任务类别: 问答
语言: 英语
数据规模: 10K<n<100K

数据集特征

字段:
- question: 字符串类型，表示问题
- subject: 字符串类型，表示主题
- choices: 字符串序列，表示选项
- answer: 类别标签，取值包括A、B、C、D

数据集拆分

original:
- 字节数: 6,967,453
- 样本数: 14,042
ngram_1:
- 字节数: 9,524,047
- 样本数: 14,042
ngram_2:
- 字节数: 10,833,458
- 样本数: 14,042
ngram_3:
- 字节数: 11,225,829
- 样本数: 14,042
ngram_4:
- 字节数: 11,118,217
- 样本数: 14,042

下载与存储

下载大小: 21,916,185
数据集大小: 49,669,004

配置

默认配置:
- 数据文件路径:
  - original: data/original-*
  - ngram_1: data/ngram_1-*
  - ngram_2: data/ngram_2-*
  - ngram_3: data/ngram_3-*
  - ngram_4: data/ngram_4-*

数据集目的

评估LLM在非常规和难以阅读的格式下的性能，问题被分割为1到4个字符的n-gram。

基准测试结果

测试样本: 每个n=1、n=2、n=3、n=4和原始（完整单词）随机抽取1,500个样本
结果图表: https://huggingface.co/datasets/hudsongouge/MMLU-NGRAM/resolve/main/benchmarks-chart.png
模型表现:

模型	n=1	n=2	n=3	n=4	Original
Alibaba Qwen3 4B (no thinking)	50.20%	37.80%	39.87%	50.00%	63.80%
Google Gemini-2.5-flash	85.67%	82.40%	76.07%	80.20%	87.13%
HuggingFace SmolLM3-3B (no thinking)	39.33%	37.40%	37.27%	43.53%	58.67%
OpenAI GPT-4.1-nano	49.00%	40.80%	45.87%	54.20%	71.07%
OpenAI GPT-4.1	82.47%	75.27%	75.87%	79.47%	84.80%
Alibaba Qwen3-235B-A22B (no thinking)	81.07%	67.33%	66.20%	75.00%	83.60%
xAI Grok-3-mini (thinking)	87.20%	86.73%	87.33%	86.73%	88.87%

搜集汇总

数据集介绍

构建方式

MMLU-NGRAM数据集基于经典的多任务语言理解基准MMLU构建，通过创新的字符n-gram分割技术对原始问题进行重构。研究团队将每个问题文本按字符粒度切分为1至4阶的n-gram序列，保留长度小于等于n的完整单词，所有n-gram单元采用空格分隔符连接。这种处理方式在保持语义完整性的前提下，构建出14,042条具有不同可读性难度的平行语料，形成包含原始版本及四个n-gram变体的五维数据集结构。

特点

该数据集最显著的特征在于其多层次的语言表征形式，通过五种不同粒度的文本编码方式（原始文本及1-4阶n-gram）为语言模型评估提供立体化测试场景。每个样本包含标准的问题题干、学科分类标签、四选一选项及标准答案，其中n-gram变体通过破坏词汇表层形态有效检验模型的语言解码能力。基准测试结果显示，即使是当前最先进的xAI Grok-3模型，在n=2和n=3条件下的性能仍会出现显著波动，这为研究语言模型的鲁棒性提供了宝贵数据。

使用方法

使用该数据集时建议采用对照实验设计，通过比较模型在原始文本与各阶n-gram变体上的表现差异来评估其语言理解深度。研究人员可加载不同分割版本（original/ngram_1-4）进行平行测试，利用内置的学科分类标签实现细粒度性能分析。基准测试采用1,500条样本的随机子集，为确保结果可比性，建议保持相同的评估规模。数据集支持端到端的问答任务评估，模型输出需与answer字段的类别标签（A-D）进行比对，准确率计算可采用标准分类评估指标。

背景与挑战

背景概述

MMLU-NGRAM数据集是近年来自然语言处理领域针对大型语言模型（LLM）评估需求而构建的专项测试集，由Hudson Gouge等研究者基于经典MMLU（Massive Multitask Language Understanding）基准改造而成。该数据集创新性地将原始问题文本分解为1至4字符的n-gram序列，通过这种非常规文本格式挑战模型的语言解码与推理能力。其核心研究价值在于揭示语言模型对结构破坏文本的鲁棒性，为评估模型在信息不完整场景下的真实理解水平提供了标准化测试环境。数据集涵盖14,042个跨学科问题，涉及哲学、历史等57个学科领域，已成为衡量语言模型抗干扰性能的重要基准。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，n-gram文本重构导致语义连续性断裂，要求模型具备强大的局部特征关联与全局语义重建能力，现有模型在n=2时平均准确率下降达23.6%表明该任务难度；在构建技术层面，需要精确控制n-gram分割粒度以避免信息过度损失，同时保持原始标签体系的完整性，这对数据预处理算法提出严苛要求。测试结果显示，即使顶级模型如GPT-4在n=3条件下的表现较原始文本仍有13.9%的绝对差距，凸显出非常规文本理解这一开放问题的研究难度。

常用场景

经典使用场景

在自然语言处理领域，MMLU-NGRAM数据集通过将问题分解为1至4个字符的n-gram序列，为研究者提供了一个独特的评估平台。该数据集最经典的使用场景在于测试大型语言模型（LLM）在非传统、难以阅读的文本格式下的理解与推理能力。通过对比模型在原始问题和n-gram变体上的表现，研究者能够深入分析模型对语言结构的鲁棒性。

实际应用

在实际应用中，MMLU-NGRAM数据集被广泛应用于商业语言模型的压力测试和质量评估。科技公司利用该数据集检测其产品在非标准输入条件下的可靠性，特别是在搜索引擎、智能客服等需要处理多样化用户输入的场景中。数据集提供的多粒度n-gram变换模拟了真实世界中可能遇到的各类文本噪声。

衍生相关工作

基于MMLU-NGRAM数据集，研究者已开展多项创新性工作。其中包括开发针对n-gram输入的专用解码算法，以及设计增强模型鲁棒性的新型训练策略。该数据集还催生了一系列关于语言模型抗干扰能力的研究，如字符级扰动下的注意力机制分析和n-gram序列的语义保持技术探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集