GPQA

arXiv2025-09-30 收录

下载链接：

https://github.com/idavidrein/gpqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由生物学、物理学和化学领域的专家编写，包含了448道具有挑战性的多选题，其难度设计既能够考验人类专家，也能对人工智能系统构成挑战。每个问题都附有详细的解释，说明了正确答案的原因，以及其他选项为何看似合理但实际上是错误的。这些问题旨在能够被专家回答，但对于非专业人士来说则颇具难度。该数据集的规模为448个问题，任务类型为多选题问答。

This dataset was compiled by experts specializing in biology, physics, and chemistry, and contains 448 challenging multiple-choice questions in total. The difficulty of these questions is designed to challenge both human experts and artificial intelligence systems. Each question is accompanied by detailed explanations that elaborate on the reasoning behind the correct answer, as well as why the other options appear plausible but are actually incorrect. These questions are intended to be solvable by subject-matter experts, yet pose considerable difficulty for non-professionals. The dataset’s task type is multiple-choice question answering.

搜集汇总

数据集介绍

构建方式

在构建GPQA数据集时，研究团队采用了一种严谨的多阶段专家驱动流程，旨在生成具有高度专业性和挑战性的问题。首先，通过Upwork平台招募了61名拥有或正在攻读博士学位的领域专家，涵盖生物学、物理学和化学三个核心学科。这些专家被要求撰写初始问题，确保问题不仅质量上乘，而且对非专家而言极难解答，即使他们能够无限制地访问互联网资源。随后，每个问题经过两轮专家验证：第一轮由同领域的另一位专家评估问题的客观性和准确性，并提供详细反馈；问题作者根据反馈进行修订后，再由第二位专家进行验证，以确认修订后的问题仍保持高质量。最后，三位在其他领域具有博士背景的非专家验证者尝试解答每个问题，他们平均花费超过30分钟，并允许使用除大型语言模型助手外的任何网络资源，以此验证问题的实际难度。整个流程通过精心设计的激励机制，确保问题兼具客观性和挑战性，最终形成了包含448个多项选择题的核心数据集。

特点

GPQA数据集的核心特点在于其卓越的难度和专业深度，专为测试人类与人工智能系统在接近人类专业知识边界时的表现而设计。该数据集的问题由领域专家精心撰写，覆盖生物学、物理学和化学的多个子领域，如分子生物学、量子力学和有机化学等，确保内容具有高度的专业性和复杂性。数据显示，领域专家在解答这些问题时的准确率约为65%，而在排除明显错误后，专家间的一致性可达74%；相比之下，即使拥有博士学位并具备充分网络资源的高技能非专家，其准确率也仅为34%，凸显了问题的“抗谷歌搜索”特性。此外，当前最先进的人工智能系统，如基于GPT-4的模型，在此数据集上的表现也仅为39%的准确率，远低于专家水平。这种显著的专家与非专家之间的性能差距，使GPQA成为进行可扩展监督实验的理想基准，能够模拟在超人类AI系统中获取真实信息的挑战。

使用方法

GPQA数据集主要用于评估和开发可扩展监督方法，以帮助人类在无法独立验证答案的情况下，从可能超越人类能力的AI系统中可靠地提取真实信息。研究人员可以在此数据集上设计实验，测试不同监督协议（如辩论、市场机制或递归奖励建模）的有效性，其中非专家监督者需要与AI系统交互，以逼近专家水平的答案准确性。具体而言，该数据集支持多种评估设置：在封闭书环境中，模型仅基于问题提示和自身参数生成答案；在开放书环境中，模型可借助互联网搜索工具获取外部信息。用户可以通过零样本、少样本或思维链提示等策略，测试不同大型语言模型的性能。此外，数据集提供的详细专家解释和非专家验证记录，有助于深入分析错误模式和改进监督机制。为确保实验的严谨性，建议使用核心的448个问题集，或更高质量的198个“钻石”子集，这些子集经过严格筛选，保证了问题的客观性和难度。

背景与挑战

背景概述

在人工智能对齐与可扩展监督研究领域，评估模型在超越人类专家知识边界问题上的表现，已成为一项关键挑战。GPQA数据集由纽约大学等机构的研究团队于2023年创建，旨在构建一个面向生物学、物理学和化学领域的、具有研究生专业难度的问答基准。该数据集的核心研究问题聚焦于如何设计一种能够有效测试可扩展监督方法的评估工具，即当人类监督者自身无法直接验证答案正确性时，如何可靠地从可能超越人类能力的AI系统中获取真实信息。GPQA通过精心设计的四阶段数据收集流程——问题撰写、专家验证、问题修订与非专家验证——确保了问题的极高难度与客观性，其影响力在于为未来超级人工智能系统的安全对齐研究提供了接近人类专业知识前沿的、具有严格验证的测试平台。

当前挑战

GPQA数据集所针对的核心领域挑战在于可扩展监督，即如何让人类有效监督并验证一个在特定领域（如尖端科学问题）上可能已超越人类集体知识水平的AI系统的输出。这要求基准问题必须同时满足：答案具有客观真值且能被领域专家确认，但对于拥有网络资源的高技能非专家而言却极难独立求解，从而模拟未来人类监督超级智能体的真实困境。在数据集构建过程中，研究团队面临多重挑战：首先，确保问题的‘抗谷歌搜索’特性，即使非专家花费大量时间（平均超过30分钟）利用网络资源仍难以解答；其次，维持问题的客观性与高质量，通过双专家验证与反馈修订机制来过滤主观或有争议的内容；再者，招募与激励真正合格的领域专家（拥有或正在攻读博士学位）参与复杂、耗时的撰写与验证工作，并设计合理的奖金结构以平衡质量与成本；最后，还需防止数据泄露至大模型训练语料库，以保持其作为评估基准的长期有效性。

常用场景

经典使用场景

在人工智能对齐与可扩展监督研究领域，GPQA数据集被广泛用作评估基准，以测试人类监督者如何有效引导超人类智能系统回答超出其自身知识边界的高难度问题。该数据集通过精心设计的生物学、物理学和化学领域研究生级别多选题，模拟了科学前沿中专家共识明确但非专家难以独立验证的场景，为研究者在受控环境中探索辩论、市场机制等监督协议提供了理想平台。

解决学术问题

GPQA数据集主要针对可扩展监督中的核心挑战，即当人工智能系统能力超越人类监督者时，如何确保其输出的真实性与可靠性。该数据集通过提供专家可解而非专家即使借助网络资源也难以回答的‘谷歌证明’问题，有效模拟了监督者面临知识鸿沟的困境，从而助力研究者开发能够克服幻觉、谄媚等模型缺陷的监督方法，推动对齐技术向更安全、可信的方向演进。

衍生相关工作

围绕GPQA数据集，学术界衍生出一系列聚焦可扩展监督的经典研究工作。例如，基于该数据集的辩论实验探索了多智能体交互如何提升答案的可验证性；同时，结合强化学习人类反馈的变体方法被提出，以应对专家级知识标注的稀缺性。这些工作共同推动了如QuALITY等数据集的演进，并在模型校准、工具增强推理等方向形成了持续的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集