five

ResearcherBench

收藏
arXiv2025-07-22 更新2025-07-24 收录
下载链接:
https://github.com/GAIR-NLP/ResearcherBench
下载链接
链接失效反馈
官方服务:
资源简介:
ResearcherBench是一个用于评估深度人工智能研究系统(DARS)在科学前沿问题上能力的基准测试平台。该数据集由65个精心挑选的研究问题组成,这些研究问题来自实验室讨论、与领先的人工智能研究人员的访谈和活跃的科学论坛等真实世界科学场景,涵盖了35个不同的人工智能研究主题,并分为技术细节、文献综述和开放咨询三种类型。数据集的创建过程遵循了严格的数据收集和筛选方法,确保了问题的真实性和质量。该数据集旨在解决当前评估框架在评估深度研究能力方面的局限性,特别是在评估人工智能系统是否能够理解复杂问题并提供有意义的见解方面。数据集的应用领域包括促进新一代人工智能研究助手的开发,以及为人工智能研究评估提供新的视角。

ResearcherBench is a benchmark platform for evaluating the capabilities of Deep Artificial Intelligence Research Systems (DARS) on cutting-edge scientific problems. This dataset comprises 65 carefully curated research questions sourced from real-world scientific scenarios including laboratory discussions, interviews with leading AI researchers, and active scientific forums. It covers 35 distinct AI research topics and is categorized into three types: technical details, literature reviews, and open consultation. The dataset was constructed following strict data collection and filtering methodologies to ensure the authenticity and quality of the included questions. This benchmark aims to address the limitations of current evaluation frameworks in assessing in-depth research capabilities, particularly regarding whether AI systems can comprehend complex problems and deliver meaningful insights. The application scenarios of this dataset include facilitating the development of a new generation of AI research assistants, as well as providing new perspectives for AI research evaluation.
提供机构:
上海交通大学
创建时间:
2025-07-22
原始信息汇总

ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry

📋 数据集概述

ResearcherBench是一个专门用于评估深度AI研究系统(DARS)在科学前沿问题上能力的综合评估基准。

核心特点

  • 前沿研究问题数据集:包含65个从真实科学场景中精心挑选的研究问题,涵盖35个不同的AI研究主题。
  • 双重评估框架:结合专家设计的标准评估和事实评估,全面衡量DARS的能力。
  • 系统性评估:对主流商业系统进行系统评估,了解其当前能力和局限性。

🏗️ 数据集构建

数据收集策略

  • 实验室内部研究讨论:研究人员积极解决未解决的技术挑战。
  • 与领先AI研究人员的访谈:揭示新兴研究方向和开放问题。
  • 科学论坛讨论:讨论实施挑战和理论差距。

数据集组成

  • 问题类型:技术细节、文献综述和开放咨询。
  • 覆盖领域:35个不同的AI主题,如模型架构、强化学习、AI政策和伦理。

🔬 评估框架

1. 标准评估

  • 关键见解提取:使用Claude-3.7-Sonnet从多源上下文中提取关键见解。
  • 专家标准设计:经验丰富的研究人员将提取的见解转化为加权评估标准(1-3分)。
  • 评估方法:评估DARS响应是否覆盖专家标准中指定的关键见解,并计算加权覆盖率。

2. 事实评估

  • 声明提取:提取DARS生成报告中的所有事实声明及其上下文。
  • 引用支持验证:验证每个URL-声明-上下文三元组是否支持相应声明。
  • 评估方法:计算忠实度(Faithfulness)和基础性(Groundedness)两个指标。

📊 评估结果

主要性能

模型 覆盖率 忠实度 基础性
OpenAI Deep Research 0.7032 0.84 0.34
Gemini Deep Research 0.6929 0.86 0.59
Grok3 DeepSearch 0.4414 0.69 0.32
Grok3 DeeperSearch 0.4398 0.80 0.31
Perplexity Deep Research 0.4800 0.85 0.56
GPT-4o Search Preview 0.3576 0.86 0.39
Perplexity: Sonar Reasoning Pro 0.4663 0.62 0.68

关键见解

  • DARS作为研究构思伙伴:所有评估系统在开放咨询问题上表现更好。
  • 合成优于检索:高基础性并不一定与研究质量相关。

🚀 快速开始

环境设置

bash git clone https://github.com/GAIR-NLP/ResearcherBench.git cd ResearcherBench pip install -r requirements.txt export OPENAI_API_KEY="your-openai-api-key" export JINA_API_KEY="your-jina-api-key"

数据准备

bash cp your_model_responses.json data/user_data/<model_name>.json export MODEL=<model_name>

运行评估

bash ./eval.sh

查看结果

bash cat results/rubric_eval/<model_name>/<model_name>_evaluation_results.txt cat results/factual_eval/<model_name>/factual_analysis.json

📁 项目结构

ResearcherBench/ ├── data/ │ ├── eval_data/ │ │ ├── rubric.json │ │ └── questions.json │ └── user_data/ ├── code/ │ ├── rubric_eval/ │ └── faithfulness_eval/ ├── results/ │ ├── rubric_eval/ │ ├── factual_eval/ │ ├── claims/ │ └── logs/ ├── eval.sh ├── requirements.txt └── README.md

📋 数据格式

json [ { "id": 1, "question": "What are the latest developments in quantum computing?", "response": "Recent advances in quantum computing include... [1]" } ]

📚 引用

bibtex @misc{xu2025researcherbenchevaluatingdeepai, title={ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry}, author={Tianze Xu and Pengrui Lu and Lyumanshan Ye and Xiangkun Hu and Pengfei Liu}, year={2025}, eprint={2507.16280}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2507.16280}, }

搜集汇总
数据集介绍
main_image_url
构建方式
ResearcherBench数据集的构建采用了系统化的方法,从真实科研场景中收集前沿研究问题。研究团队从实验室内部讨论、AI领域专家访谈以及科学论坛讨论三个主要来源,系统性地收集了数百个候选问题。通过严格的筛选流程,包括质量、清晰度和可验证性等多维度的评估,最终精选出65个高质量研究问题,涵盖35个AI研究主题,并分为技术细节、文献综述和开放咨询三种类型。这一构建过程确保了数据集的前沿性和真实性。
特点
ResearcherBench数据集具有显著的前沿性和专业性特征。其问题来源于真实的科研场景,涵盖了模型架构、多模态融合、AI伦理等35个AI研究主题。数据集特别设计了三种问题类型:强调精确验证的技术细节问题、注重综合分析的文献综述问题,以及侧重创新见解的开放咨询问题。这种分类设计能够全面评估AI研究系统在不同认知需求下的表现。此外,数据集还配有专家设计的评估标准和引用验证机制,为AI研究系统的评估提供了多维度的衡量标准。
使用方法
ResearcherBench数据集的使用遵循其设计的双评估框架。研究人员首先需要让AI系统回答数据集中的研究问题,然后通过专家设计的评估标准(rubric assessment)来衡量回答的见解质量和概念深度。同时,采用事实评估(factual assessment)来验证引用的准确性(faithfulness)和覆盖率(groundedness)。评估过程建议使用特定的提示模板来确保回答格式的统一性。数据集特别适合用于评估AI系统在前沿科学研究问题上的理解深度、创新见解生成能力以及引用可靠性。
背景与挑战
背景概述
ResearcherBench是由上海交通大学、SII和GAIR的研究团队于2025年推出的首个专注于评估深度AI研究系统(DARS)在科学前沿问题上表现能力的基准测试。该数据集包含65个从真实科研场景中精心筛选的研究问题,涵盖35个不同AI子领域,分为技术细节、文献综述和开放咨询三类问题。作为首个针对AI系统前沿科研能力的评估框架,ResearcherBench通过创新的双评估体系(标准评估和事实评估),为衡量AI系统在未解决科学问题上的洞察力提供了标准化平台,推动了AI从信息检索工具向真正科研合作伙伴的范式转变。
当前挑战
ResearcherBench面临的核心挑战体现在两个方面:在领域问题层面,需要解决现有评估体系无法衡量AI系统在真正前沿科学问题上的创新洞察能力这一关键缺陷,特别是在处理具有高度模糊性、缺乏明确答案的前沿问题时;在构建过程层面,挑战包括如何从真实科研场景中提取高质量的前沿问题、设计能准确评估创新思维而非简单事实检索的评估标准,以及处理商业DARS系统的黑箱特性带来的评估困难。此外,数据集还面临领域特异性(仅限AI领域)和规模限制(65个问题)带来的泛化性挑战。
常用场景
经典使用场景
ResearcherBench数据集专为评估深度AI研究系统(DARS)在科学前沿问题上的表现而设计。其经典使用场景包括实验室内部讨论、领先AI研究人员的访谈以及科学论坛讨论,这些场景中产生的高质量前沿研究问题被精心筛选并纳入数据集。数据集涵盖35个不同的AI研究主题,分为技术细节、文献综述和开放咨询三种类型,为评估DARS在多样化研究辅助场景中的能力提供了系统化的框架。
实际应用
在实际应用中,ResearcherBench被广泛应用于评估商业DARS系统(如OpenAI Deep Research和Gemini Deep Research)在解决前沿AI研究问题时的表现。其双评估框架结合了专家设计的标准评估和自动化事实验证,能够同时评估生成研究报告的理解深度和可靠性。该数据集还被用于识别不同系统在技术细节、文献综述和开放咨询等问题类型上的能力差异,为AI系统的优化提供了重要参考。
衍生相关工作
ResearcherBench的推出催生了一系列相关研究工作,包括DeepResearch Bench、Mind2Web 2等专注于评估深度研究能力的基准测试。这些工作借鉴了ResearcherBench的评估理念,但在不同方向上进行了扩展,如评估代理搜索能力或研究复制能力。此外,该数据集也促进了评估方法论的创新,如引用准确性(faithfulness)和覆盖度(groundedness)等新指标的提出,为AI研究评估领域树立了新的标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作