mmlu-pro-irt-1-0
收藏MMLU-Pro-IRT 数据集概述
数据集基本信息
- 来源:基于 MMLU-Pro 的子集
- 构建方法:采用 Item Response Theory 筛选题目
- 数据量:
- 测试集:2059 条
- 验证集:70 条
- 下载大小:658566 字节
- 数据集大小:1264228 字节
- 许可证:MIT
数据集特点
- 目的:提供更快的评估速度,同时保持对模型能力的有效测量
- 优势:
- 评估时间大幅缩短(完整 MMLU-Pro 需评估 12000 条,本数据集仅 2059 条)
- 分数分布更分散,避免模型分数集中在低分区
- 适合无需思维链(CoT)的 logprobs 评估方法
数据结构
- 特征:
question_id(int64): 问题IDquestion(string): 问题文本options(sequence of string): 选项列表answer(string): 正确答案文本answer_index(int64): 正确答案索引cot_content(string): 思维链内容category(string): 问题类别src(string): 数据来源
评估方法示例
-
使用 Eleuther LM-Eval(5-shot logprobs 评估)
- 示例模型:google/gemma-2-9b-it
- 运行时间:~6 分钟
- 准确率:56.58%
-
使用 VLLM(5-shot 生成式评估,含 CoT)
- 示例模型:google/gemma-2-9b-it
- 运行时间:~47 分钟
- 准确率:61.87%
-
使用 llama.cpp(5-shot 生成式评估,含 CoT)
- 示例模型:bartowski/gemma-2-9b-it-GGUF
- 运行时间:~1 小时 41 分钟
- 准确率:58.52%
-
使用 Ollama(5-shot 生成式评估,含 CoT)
- 示例模型:google/gemma-2-9b-it
- 运行时间:~26 分钟
- 准确率:44.44%
相关引用
-
MMLU-Pro 原始论文:
@misc{wang2024mmlupro, title={MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark}, author={Yubo Wang and Xueguang Ma and Ge Zhang and Yuansheng Ni and Abhranil Chandra and Shiguang Guo and Weiming Ren and Aaran Arulraj and Xuan He and Ziyan Jiang and Tianle Li and Max Ku and Kai Wang and Alex Zhuang and Rongqi Fan and Xiang Yue and Wenhu Chen}, year={2024}, eprint={2406.01574}, archivePrefix={arXiv}, primaryClass={cs.CL} }
-
原始 MMLU 论文:
@article{hendryckstest2021, title={Measuring Massive Multitask Language Understanding}, author={Dan Hendrycks and Collin Burns and Steven Basart and Andy Zou and Mantas Mazeika and Dawn Song and Jacob Steinhardt}, journal={Proceedings of the International Conference on Learning Representations (ICLR)}, year={2021} }




