TIGER-Lab/MMLU-Pro
收藏Hugging Face2026-05-02 更新2024-05-18 收录
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/MMLU-Pro
下载链接
链接失效反馈官方服务:
资源简介:
MMLU-Pro数据集是一个更为鲁棒和具有挑战性的大规模多任务理解数据集,旨在更严格地评估大型语言模型的能力。该数据集包含12K个复杂问题,涵盖多个学科。与原始MMLU数据集相比,MMLU-Pro增加了每个问题的选项数量,从4个增加到10个,以提高评估的复杂性和鲁棒性。此外,MMLU-Pro还集成了更多需要推理的问题,使得CoT(Chain-of-Thought)推理的效果比PPL(Perplexity)更好。数据集的问题来源包括原始MMLU问题、STEM网站、TheoremQA和SciBench等。数据集经过专家严格审查,确保问题的挑战性和准确性。
The MMLU-Pro dataset is a more robust and challenging large-scale multi-task understanding dataset designed to conduct more rigorous evaluations of large language models' capabilities. This dataset comprises 12,000 complex questions covering multiple academic disciplines. Compared with the original MMLU dataset, MMLU-Pro increases the number of options per question from 4 to 10, thereby enhancing the complexity and robustness of the evaluation. Furthermore, MMLU-Pro incorporates more reasoning-intensive questions, making the performance of Chain-of-Thought (CoT) inference superior to that of Perplexity (PPL). The questions in the dataset are sourced from original MMLU questions, STEM websites, TheoremQA, SciBench, and other resources. The dataset has undergone strict expert review to ensure its challenging nature and accuracy.
提供机构:
TIGER-Lab
原始信息汇总
数据集概述
数据集名称
- MMLU-Pro
数据集特性
- 语言: 英语
- 许可证: MIT
- 大小: 10K<n<100K
- 任务类别: 问答
- 标签: 评估
数据集配置
- 默认配置
- 测试集路径: data/test-*
- 验证集路径: data/validation-*
数据集信息
- 特征:
- question_id: int64
- question: string
- options: sequence: string
- answer: string
- answer_index: int64
- cot_content: string
- category: string
- src: string
- 分割:
- 测试集: 12032个例子, 8714568字节
- 验证集: 70个例子, 61129字节
- 下载大小: 17057213字节
- 数据集大小: 8775697字节
数据集内容
- 问题和选项: 每个问题通常有十个多选项,增加了问题的复杂性和鲁棒性。
- 来源:
- 原始MMLU问题: 部分来自原始MMLU数据集,移除了简单和模糊的问题。
- STEM网站: 从互联网上精选的高质量STEM问题。
- TheoremQA: 需要定理解决的高质量人工标注问题。
- Scibench: 来自大学考试的科学问题。
- 学科覆盖: 新增数据涵盖了生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学等学科。
数据集构建
- 初始过滤: 从原始MMLU数据集中筛选出难度和相关性更高的问題。
- 问题收集和整合: 从STEM网站、theoremQA和scibench中精心挑选问题,注重问题的复杂性和质量。
- 选项增强: 使用GPT-4将每个问题的选项从四个增加到十个,生成需要辨别推理的合理干扰项。
- 专家评审: 每个问题及其选项都经过十多位专家的严格审查,确保问题的挑战性、全面性、准确性和公平性。
数据集评估
- CoT vs 直接评估: MMLU-Pro需要CoT推理以获得更好的结果,与原始MMLU相比,CoT结果可以高出20%。
- MMLU vs MMLU-Pro结果: 不同模型的性能在MMLU-Pro上有所下降,但下降幅度不同,反映了数据集的挑战性。
数据集维护
- 数据集中存在错误,发现错误时请将问题ID粘贴到问题页面,团队将长期维护此数据集以确保其质量。
搜集汇总
数据集介绍

背景与挑战
背景概述
MMLU-Pro is a comprehensive benchmark dataset with 12,032 complex questions across multiple disciplines, featuring 10 options per question to minimize guessing and emphasize reasoning. It integrates questions from original MMLU, STEM websites, TheoremQA, and SciBench, rigorously reviewed by experts to ensure high quality and difficulty.
以上内容由遇见数据集搜集并总结生成



