QUESTBENCH

Name: QUESTBENCH
Creator: 北京大学; 大数据高级研究院
Published: 2026-05-21 01:09:56
License: 暂无描述

arXiv2026-05-21 更新2026-05-22 收录

下载链接：

https://huggingface.co/datasets/PKUAIWeb/QuestBench/tree/main

下载链接

链接失效反馈

官方服务：

资源简介：

QUESTBENCH是由北京大学师生构建的课程基准数据集，涵盖人文社科14个专业领域。该数据集包含256条经过精心设计的专家级深度研究问题，每条问题均需结合领域知识进行查询构建、源文档导航和证据判断。数据创建过程融合了学生学科专业知识、对抗性同行评审及多轮质量控制机制，旨在通过基准构建教学培养学生对AI辅助知识工作的问责能力。该数据集主要用于评估深度研究系统的性能瓶颈，揭示AI在专业查询、源导航和答案提取中的隐藏缺陷，为AI教育提供实证分析案例。

QUESTBENCH is a course benchmark dataset constructed by faculty and students of Peking University, covering 14 specialized fields within humanities and social sciences. It contains 256 expert-level, carefully crafted in-depth research questions, each of which requires query formulation, source document navigation and evidence judgment based on domain-specific knowledge. The dataset's development process integrates subject-matter expertise from students, adversarial peer review and multi-round quality control mechanisms, aiming to foster students' accountability for AI-assisted knowledge work through benchmark-based teaching. This dataset is primarily used to evaluate performance bottlenecks of deep research systems, reveal latent flaws of AI in professional querying, source navigation and answer extraction, and provide empirical analysis cases for AI education.

提供机构：

北京大学; 大数据高级研究院

创建时间：

2026-05-21

搜集汇总

数据集介绍

构建方式

QUESTBENCH的构建源于北京大学一门课程实践，学生们将自身学科知识转化为可验证的专家级问题。构建过程遵循严格的五步协议：领域专业性要求、长尾信息定位、答案唯一性与可验证性、复杂演化文档记录以及反捷径验证。随后，经过初步筛选剔除无效或琐碎问题，再通过三轮独立专家审查（答案正确性、评分标准清晰度、反捷径测试）对候选问题进行迭代过滤，最终将37个原始领域标签归一化为14个学科组，形成包含256个问题的基准测试集。

使用方法

QUESTBENCH设计用于评估深度研究系统在开放网络下的专家级问答能力。使用时，模型需通过搜索和访问工具从互联网获取信息，针对每个问题生成答案，系统根据预定义的评分标准进行自动或人工评分。数据集提供了详细的评分细则和参考答案，支持精确匹配、部分得分和结构化答案等多种评估方式。该基准不仅可用于模型性能比较，更可作为教学工具，让学生通过分析模型失败案例来理解AI知识工作中的责任边界和学科标准的重要性。

背景与挑战

背景概述

QUESTBENCH诞生于人工智能深度嵌入知识工作的时代背景之下，由北京大学的研究团队于2026年创建，其核心研究问题在于探索如何通过基准测试构建这一教学实践，培养学生在AI辅助下的知识工作中保持负责任的态度。该数据集不仅是评估前沿深度研究系统的技术工具，更是一份课程实践的记录，它通过让学生自主设计专家级问题、进行对抗性同行评审与反捷径验证，将学科专业知识转化为可检验的评估标准。QUESTBENCH涵盖了14个人文与社会科学领域内的256道精心筛选的问题，在为AI能力评估提供了高难度测试场的同时，也开辟了AI教育的新范式，将工具使用训练与知识责任意识的培养紧密联结，对理解人机协作时代的教育本质产生了深远影响。

当前挑战

QUESTBENCH所聚焦的领域挑战在于，当前深度研究系统的能力边界难以满足专业领域内对知识可信度的严苛要求。尽管这些系统能够生成流畅且附带引用的回答，但它们在面对需要精准检索策略、专业术语理解及深度证据判断的任务时，暴露出检索失败、无根据推断及答案提取错误等系统性缺陷，这直接威胁着AI在知识生产中的可靠性。此外，数据集的构建过程本身亦面临严峻挑战：如何确保由学生设计的问题能够真正达到专家级难度而不存在捷径，如何通过多轮同行评审在消除歧义与反捷径验证中维持质量的一致性，以及如何将来自37个不同细化学科的问题有效归并至14个标准化领域，这些环节都对课程设计的严谨性与可复现性提出了极高要求。

常用场景

经典使用场景

在人工智能教育领域，QUESTBENCH被广泛用于评估大型语言模型在深度研究任务中的表现，特别是在人文与社会科学专业知识的检索与综合场景中。该数据集设计了256道涵盖14个学科领域的专家级问题，要求模型通过开放式网络搜索、多源信息整合与精确答案提取来完成挑战。其经典使用方式是将模型置于一个模拟学术研究的复杂环境中，考察其在查询构建、信源导航与答案验证等环节的综合能力。

解决学术问题

QUESTBENCH直面当前AI系统在知识工作中深层失效的难题，揭示了即便具备流畅生成与引用能力的前沿模型，在领域敏感型任务中的平均通过率仅为16.85%。该数据集系统性地识别出三大瓶颈：检索失败、无据推论与答案提取错误，分别占比32.8%、24.8%和43.1%。这一发现对学术界意义深远，它表明AI系统的可靠性并非全局属性，而是高度依赖学科语境，从而推动了面向可解释性与领域适配性的评估范式变革。

实际应用

在实际应用层面，QUESTBENCH为教育场景提供了可复用的课程实践框架。它被设计为一种以基准构建为核心的教学活动，使学生在使用深度研究工具的同时，通过设计可验证的专家级问题、制定评分标准、实施对抗性同行评审以及分析模型失败案例，培养对AI输出进行批判性审视的素养。这一模式已在北京大学的人文社科课程中落地，帮助学生将专业知识从被动检索内容转化为主动评判AI工作的标准依据。

数据集最近研究