SuperGPQA

github2025-03-06 更新2025-02-22 收录

下载链接：

https://github.com/SuperGPQA/SuperGPQA

下载链接

链接失效反馈

官方服务：

资源简介：

SuperGPQA是一个全面的基准，用于评估跨285个学科的研究生级别的知识和推理能力。该基准采用了一种新颖的人类-LLM协作过滤机制，通过基于LLM响应和专家反馈的迭代改进，消除了简单或模糊的问题。实验结果表明，当前最先进的LLM在多种知识领域的性能有很大的提升空间，突出了当前模型能力与人工通用智能之间的巨大差距。此外，我们还从管理一个涉及超过80名专家标注员和交互式人类-LLM协作系统的规模化标注过程中获得了全面的见解，为未来类似范围的研究倡议提供了宝贵的方法论指导。

SuperGPQA is a comprehensive benchmark designed to evaluate graduate-level knowledge and reasoning capabilities across 285 disciplines. This benchmark employs a novel human-LLM collaborative filtering mechanism, which removes simplistic or ambiguous questions through iterative refinement based on LLM responses and expert feedback. Experimental results demonstrate that state-of-the-art LLMs still have considerable room for improvement across diverse knowledge domains, highlighting the substantial gap between current model capabilities and artificial general intelligence (AGI). Additionally, we have gathered comprehensive insights from managing a large-scale annotation process involving over 80 expert annotators and an interactive human-LLM collaborative system, providing valuable methodological guidance for future research initiatives of similar scale.

创建时间：

2025-02-20

原始信息汇总

SuperGPQA数据集概述

数据集简介

SuperGPQA是一个全面的评估基准，旨在评估研究生级别的知识和推理能力，跨越285个学科。该基准采用一种新颖的人类与LLM协作过滤机制，通过基于LLM响应和专家反馈的迭代精炼，消除了简单或模糊的问题。实验结果显示，当前最先进的LLM在多个知识领域（例如，推理聚焦模型DeepSeek-R1在SuperGPQA上达到了61.82%的最高准确度）的性能仍有很大的提升空间，突显了当前模型能力与人工通用智能之间的巨大差距。

数据集统计

学科总数：285
按学科划分的数据量统计：
- 农学：485
- 经济学：873
- 教育：484
- 工程学：7892
- 历史：674
- 法学：656
- 文学与艺术：1676
- 管理：501
- 医学：2755
- 军事科学：205
- 哲学：347
- 科学：9838
- 社会学：143

数据集组成

SuperGPQA包含多个子任务，涵盖不同难度级别的问题，用于评估各种模型的性能。

性能指标

性能指标分为总体性能（样本、子领域、领域、学科）以及在不同难度级别（简单、中等、困难）的样本上的性能。

模型列表

推理模型：DeepSeek-R1, o1-2024-12-17, DeepSeek-R1-Zero, o3-mini-2025-01-31-high, o3-mini-2025-01-31-medium 等
聊天模型：Doubao-1.5-pro-32k-250115, Doubao-1.5-pro-32k-241225, Qwen-max-2025-01-25, Claude-3-5-sonnet-20241022, Gemini-2.0-flash 等
基础模型：Qwen2.5-72B, Qwen2.5-32B, DeepSeek-V3-Base, Qwen2.5-14B, Yi-1.5-34B 等

引用

bibtex @misc{pteam2025supergpqascalingllmevaluation, title={SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines}, author={P Team and Xinrun Du and Yifan Yao and Kaijing Ma and Bingli Wang and Tianyu Zheng and Kang Zhu and Minghao Liu and Yiming Liang and Xiaolong Jin and Zhenlin Wei and Chujie Zheng and Kaixing Deng and Shuyue Guo and Shian Jia and Sichao Jiang and Yiyan Liao and Rui Li and Qinrui Li and Sirun Li and Yizhi Li and Yunwen Li and Dehua Ma and Yuansheng Ni and Haoran Que and Qiyao Wang and Zhoufutu Wen and Siwei Wu and Tianshun Xing and Ming Xu and Zhenzhu Yang and Zekun Moore Wang and Junting Zhou and Yuelin Bai and Xingyuan Bu and Chenglin Cai and Liang Chen and Yifan Chen and Chengtuo Cheng and Tianhao Cheng and Keyi Ding and Siming Huang and Yun Huang and Yaoru Li and Yizhe Li and Zhaoqun Li and Tianhao Liang and Chengdong Lin and Hongquan Lin and Yinghao Ma and Zhongyuan Peng and Zifan Peng and Qige Qi and Shi Qiu and Xingwei Qu and Yizhou Tan and Zili Wang and Chenqing Wang and Hao Wang and Yiya Wang and Yubo Wang and Jiajun Xu and Kexin Yang and Ruibin Yuan and Yuanhao Yue and Tianyang Zhan and Chun Zhang and Jingyang Zhang and Xiyue Zhang and Xingjian Zhang and Yue Zhang and Yongchi Zhao and Xiangyu Zheng and Chenghua Zhong and Yang Gao and Zhoujun Li and Dayiheng Liu and Qian Liu and Tianyu Liu and Shiwen Ni and Junran Peng and Yujia Qin and Wenbo Su and Guoyin Wang and Shi Wang and Jian Yang and Min Yang and Meng Cao and Xiang Yue and Zhaoxiang Zhang and Wangchunshu Zhou and Jiaheng Liu and Qunshu Lin and Wenhao Huang and Ge Zhang}, year={2025}, eprint={2502.14739}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.14739}, }

搜集汇总

数据集介绍

构建方式

SuperGPQA 数据集通过一种创新的人类与LLM协作过滤机制构建，该机制通过迭代的精炼过程，基于LLM的响应和专家的反馈，消除了平凡或模糊的问题。该数据集综合了285个学科的研究生级别知识和推理能力评估，旨在推动大型语言模型在多学科领域的评估和应用。

使用方法

使用SuperGPQA数据集，用户首先需要安装必要的依赖包，然后可以通过命令行工具对选定的模型进行本地或API模式的推理。推理完成后，用户可以利用评估管道来解析答案并进行性能评估。此外，用户还可以根据需要运行自定义模型，并在推理过程中启用加速选项以提高效率。

背景与挑战

背景概述

SuperGPQA是一项旨在评估研究生层次知识和推理能力的大型综合基准，其涉及285个学科。该数据集的创建，依托于一种新颖的人类与LLM协作过滤机制，通过迭代精炼，消除简单或模糊问题，从而提升评估质量。研究结果显示，当前的顶尖LLM模型在不同知识领域的表现存在较大提升空间，例如，以推理为重点的模型DeepSeek-R1在SuperGPQA上的最高准确率为61.82%。此外，该研究团队还分享了在管理大规模标注过程中的深刻见解，涉及80多位专家标注者和一个交互式的人类-LLM协作系统，为未来同规模研究提供了宝贵的方法论指导。

当前挑战

SuperGPQA数据集在构建过程中所面临的挑战主要包括：1)如何确保评估的问题在广度和深度上能够全面覆盖285个学科的研究生知识体系；2)如何通过人类与LLM的协作过滤机制有效提升问题质量，避免简单或模糊问题的干扰；3)如何处理大规模标注过程中出现的一致性和准确性问题。在所解决的领域问题方面，SuperGPQA面临的挑战是如何设计出能够准确评估LLM在各个学科领域知识掌握和推理能力的任务，特别是在那些需要深入学科知识和复杂推理能力的任务上。

常用场景

经典使用场景

SuperGPQA作为一项全面评估研究生层次知识和推理能力的基准，其经典使用场景在于对大型语言模型进行跨学科的知识和推理能力的测试。通过对285个学科领域的深入覆盖，该数据集使得研究者能够评估模型在各个学科样本、子领域、领域以及学科的整体表现，从而为模型在特定领域的应用提供依据。

解决学术问题

SuperGPQA解决了当前大型语言模型在跨学科知识和推理能力评估方面的不足。它通过人类与LLM协同过滤机制，消除 trivia 或模糊的问题，揭示出当前最先进模型在不同知识领域中的性能差异，有助于学术研究者识别模型在通向人工通用智能方面的差距，为未来的模型研发和优化指明方向。

实际应用

在实际应用中，SuperGPQA的数据集可被用于教育、科研以及人工智能产品开发等多个领域。例如，它可以作为教育工具，帮助学习者了解自己在特定学科领域的知识盲点；在科研中，可作为评估学术模型性能的标准；在产品开发中，有助于优化人工智能系统的学科知识理解和推理能力。

数据集最近研究