mmlu-pro-irt-1-0

Hugging Face2024-07-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/sam-paech/mmlu-pro-irt-1-0

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU-Pro-IRT是MMLU-Pro的一个小规模子集，通过项目反应理论（IRT）筛选，以更好地在能力范围内区分分数。该数据集包含2059个项目，相比完整的MMLU-Pro的12000个项目，运行速度更快。数据集包含多个特征，如问题ID、问题、选项、答案、答案索引、CoT内容、类别和来源。数据集分为测试集和验证集，分别包含2059和70个样本。数据集的目的是为了提供一个更快速的测试集，用于评估模型在相同能力上的表现，同时避免原始MMLU-Pro中分数集中在低分段的问题。

创建时间：

2024-07-03

原始信息汇总

MMLU-Pro-IRT 数据集概述

数据集基本信息

来源：基于 MMLU-Pro 的子集
构建方法：采用 Item Response Theory 筛选题目
数据量：
- 测试集：2059 条
- 验证集：70 条
下载大小：658566 字节
数据集大小：1264228 字节
许可证：MIT

数据集特点

目的：提供更快的评估速度，同时保持对模型能力的有效测量
优势：
- 评估时间大幅缩短（完整 MMLU-Pro 需评估 12000 条，本数据集仅 2059 条）
- 分数分布更分散，避免模型分数集中在低分区
- 适合无需思维链（CoT）的 logprobs 评估方法

数据结构

特征：
- question_id (int64): 问题ID
- question (string): 问题文本
- options (sequence of string): 选项列表
- answer (string): 正确答案文本
- answer_index (int64): 正确答案索引
- cot_content (string): 思维链内容
- category (string): 问题类别
- src (string): 数据来源

评估方法示例

使用 Eleuther LM-Eval（5-shot logprobs 评估）
- 示例模型：google/gemma-2-9b-it
- 运行时间：~6 分钟
- 准确率：56.58%
使用 VLLM（5-shot 生成式评估，含 CoT）
- 示例模型：google/gemma-2-9b-it
- 运行时间：~47 分钟
- 准确率：61.87%
使用 llama.cpp（5-shot 生成式评估，含 CoT）
- 示例模型：bartowski/gemma-2-9b-it-GGUF
- 运行时间：~1 小时 41 分钟
- 准确率：58.52%
使用 Ollama（5-shot 生成式评估，含 CoT）
- 示例模型：google/gemma-2-9b-it
- 运行时间：~26 分钟
- 准确率：44.44%

相关引用

MMLU-Pro 原始论文:

@misc{wang2024mmlupro, title={MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark}, author={Yubo Wang and Xueguang Ma and Ge Zhang and Yuansheng Ni and Abhranil Chandra and Shiguang Guo and Weiming Ren and Aaran Arulraj and Xuan He and Ziyan Jiang and Tianle Li and Max Ku and Kai Wang and Alex Zhuang and Rongqi Fan and Xiang Yue and Wenhu Chen}, year={2024}, eprint={2406.01574}, archivePrefix={arXiv}, primaryClass={cs.CL} }
原始 MMLU 论文:

@article{hendryckstest2021, title={Measuring Massive Multitask Language Understanding}, author={Dan Hendrycks and Collin Burns and Steven Basart and Andy Zou and Mantas Mazeika and Dawn Song and Jacob Steinhardt}, journal={Proceedings of the International Conference on Learning Representations (ICLR)}, year={2021} }

搜集汇总

数据集介绍

构建方式

MMLU-Pro-IRT数据集是基于MMLU-Pro数据集的一个子集，通过项目反应理论（Item Response Theory, IRT）进行筛选，旨在更好地分离不同能力范围内的得分。该数据集从原始的12000个项目中精选出2059个项目，显著减少了评估时间。IRT筛选方法特别关注那些在能力范围内具有区分度且无需推理链（CoT）的问题，使得评估结果更加分散，避免了得分集中在低分区域的现象。

特点

MMLU-Pro-IRT数据集的特点在于其通过IRT筛选出的问题具有较高的区分度，能够更好地反映模型在不同能力范围内的表现。相较于原始的MMLU-Pro数据集，该子集的评估时间大幅缩短，且得分分布更为广泛，避免了模型得分集中在低分区域的现象。此外，该数据集特别适用于基于对数概率（logprobs）的评估方法，无需复杂的推理链解析，使得评估过程更加高效。

使用方法

MMLU-Pro-IRT数据集可以通过多种方式进行评估，包括使用Eleuther LM-Eval进行5-shot对数概率评估，或通过TIGER-AI-Lab/MMLU-Pro的fork进行生成式评估。使用Eleuther LM-Eval时，用户需克隆相应的代码库并安装依赖，随后通过命令行运行评估任务。生成式评估则需使用VLLM或llama.cpp等工具，具体步骤包括克隆代码库、安装依赖并运行评估脚本。该数据集的使用方法灵活多样，适用于不同场景下的模型性能评估。

背景与挑战

背景概述

MMLU-Pro-IRT-1.0数据集是基于MMLU-Pro数据集的一个子集，由TIGER-AI-Lab于2024年发布，旨在通过项目反应理论（Item Response Theory, IRT）优化模型评估的效率和准确性。该数据集包含2059个问题，相较于完整的MMLU-Pro数据集，其规模显著减小，从而缩短了模型评估的时间。MMLU-Pro-IRT-1.0特别适用于生成式模型的评估，尤其是在不需要复杂推理链（Chain-of-Thought, CoT）的情况下，能够更有效地衡量模型在不同能力范围内的表现。该数据集的发布为自然语言处理领域的研究者提供了一个更为高效和精准的评估工具，推动了模型评估方法的进一步发展。

当前挑战

MMLU-Pro-IRT-1.0数据集在构建和应用过程中面临多重挑战。首先，数据集的构建依赖于项目反应理论（IRT），这要求对问题的区分度和难度进行精确计算，以确保所选问题能够有效区分不同能力水平的模型。其次，尽管数据集规模较小，但其仍需要保持与完整MMLU-Pro数据集相当的评估效果，这对问题的选择和优化提出了较高要求。此外，数据集的评估方法多样化，包括基于对数概率的快速评估和生成式推理链评估，这要求研究者在不同评估方法之间进行权衡，以确保评估结果的准确性和一致性。最后，数据集的广泛应用还需要解决模型在不同评估环境下的适应性问题，以确保评估结果的普适性和可靠性。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-irt-1-0数据集被广泛用于评估语言模型的多任务理解能力。通过结合项目反应理论（IRT），该数据集能够更精确地衡量模型在不同能力范围内的表现，尤其是在生成式推理任务中的表现。其经典使用场景包括在Eleuther LM-Eval框架下进行5-shot logprobs评估，以快速测试模型的基础能力。

实际应用

在实际应用中，mmlu-pro-irt-1-0数据集被用于优化语言模型的性能评估流程。例如，在开发基于生成式推理的对话系统时，研究者可以利用该数据集快速测试模型在不同任务上的表现，从而加速模型的迭代和优化。此外，该数据集还被用于教育技术领域，帮助开发智能辅导系统，以更精准地评估学生的学习能力。

衍生相关工作

mmlu-pro-irt-1-0数据集衍生了一系列相关研究工作，特别是在语言模型评估领域。例如，基于该数据集的评估方法被应用于Open LLM Leaderboard，推动了语言模型性能的公开比较。此外，该数据集还启发了更多基于IRT的评估工具的开发，如MAGI等，进一步丰富了多任务语言理解评估的研究生态。

以上内容由遇见数据集搜集并总结生成