five

ResearcherBench

收藏
github2025-07-21 更新2025-07-23 收录
下载链接:
https://github.com/GAIR-NLP/ResearcherBench
下载链接
链接失效反馈
官方服务:
资源简介:
ResearcherBench是一个专门设计用于评估深度AI研究系统(DARS)在前沿科学问题上能力的综合评估基准。它包含65个来自真实科学场景的专家精选研究问题,涵盖35个不同的AI研究主题,并提供了一个双评估框架,结合了专家设计的评估标准和事实评估。

ResearcherBench is a comprehensive evaluation benchmark specifically designed to assess the capabilities of Deep AI Research Systems (DARS) on cutting-edge scientific problems. It comprises 65 expert-curated research questions sourced from real-world scientific scenarios, covering 35 distinct AI research topics, and provides a dual evaluation framework that combines expert-designed evaluation criteria with factual assessment.
创建时间:
2025-07-16
原始信息汇总

ResearcherBench 数据集概述

🎯 数据集简介

ResearcherBench 是一个专门用于评估深度人工智能研究系统(DARS)在前沿科学问题上的能力的综合性评估基准。该数据集包含65个来自真实科学场景的研究问题,涵盖35个不同的AI研究主题。

🏗️ 数据集构建

数据收集策略

  • 实验室内部研究讨论:研究人员积极应对未解决的技术挑战
  • 与领先AI研究人员的访谈:揭示新兴研究方向和开放问题
  • 科学论坛讨论:讨论实施挑战和理论差距

数据集组成

  • 65个研究问题,分为三类:技术细节、文献综述和开放咨询
  • 涵盖35个AI研究主题(如模型架构、强化学习、AI政策与伦理)

🔬 评估框架

1. 标准评估

  • 关键见解提取:使用Claude-3.7-Sonnet分析多源上下文并提取关键见解
  • 专家设计标准:经验丰富的研究人员将提取的见解转化为加权评估标准(1-3级)
  • 评估方法:评估DARS响应是否涵盖专家设计标准中指定的关键见解

2. 事实评估

  • 声明提取:提取DARS生成报告中的所有事实声明及其对应的上下文段落
  • 引用支持验证:验证URL来源的文本内容是否支持相应声明
  • 评估方法:计算忠实度分数和基础性分数

📊 评估结果

主要性能

模型 覆盖率 忠实度 基础性
OpenAI Deep Research 0.7032 0.84 0.34
Gemini Deep Research 0.6929 0.86 0.59
Grok3 DeepSearch 0.4414 0.69 0.32
Grok3 DeeperSearch 0.4398 0.80 0.31
Perplexity Deep Research 0.4800 0.85 0.56
GPT-4o Search Preview 0.3576 0.86 0.39
Perplexity: Sonar Reasoning Pro 0.4663 0.62 0.68

关键见解

  • DARS作为研究构思伙伴表现更佳
  • 高基础性不一定与研究质量相关

🚀 快速开始

环境设置

bash git clone https://github.com/GAIR-NLP/ResearcherBench.git cd ResearcherBench pip install -r requirements.txt export OPENAI_API_KEY="your-openai-api-key" export JINA_API_KEY="your-jina-api-key"

运行评估

bash ./eval.sh

📁 项目结构

ResearcherBench/ ├── data/ │ ├── eval_data/ │ │ ├── rubric.json │ │ └── questions.json │ └── user_data/ ├── code/ │ ├── rubric_eval/ │ └── faithfulness_eval/ ├── results/ │ ├── rubric_eval/ │ └── factual_eval/ └── README.md

📋 数据格式

json [ { "id": 1, "question": "What are the latest developments in quantum computing?", "response": "Recent advances in quantum computing include... [1]" } ]

📚 引用

bibtex @article{researcherbench2025, title={ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry}, author={Tianze Xu and Pengrui Lu and Lyumanshan Ye and Xiangkun Hu and Pengfei Liu}, journal={arXiv preprint arXiv:2025.xxxxx}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
ResearcherBench的构建过程体现了严谨的科学方法论,其数据采集策略聚焦于前沿科研问题的真实性验证。研究团队从实验室内部讨论、顶尖AI研究者访谈以及科学论坛交流三大真实场景中,系统性地筛选出65个具有代表性的研究问题,覆盖35个AI细分领域。每个问题都经过专家团队的严格筛选和分类,确保数据集能够全面反映前沿科学探究的复杂性。数据标注过程采用人机协同模式,先通过大语言模型提取关键见解,再由领域专家转化为加权评估标准,形成结构化评估框架。
特点
该数据集最显著的特征在于其双重评估维度的创新设计。一方面通过专家设计的评分标准体系(1-3分量表)评估系统回答的深度和广度,另一方面采用自动化事实核查机制验证引用的准确性和可靠性。数据集包含的技术细节、文献综述和开放咨询三类问题,有效模拟了真实科研场景中的不同需求。特别值得注意的是,其评估指标设计突破了传统信息检索系统的局限,将覆盖度、忠实度和基础性三个维度有机结合,为评估AI系统的科研协作能力提供了多维度的量化标准。
使用方法
使用ResearcherBench需要遵循标准化的评估流程。用户首先需要将待测系统的回答按指定JSON格式整理,包含问题ID、问题文本和系统回答三个字段。通过配置环境变量和运行评估脚本,系统会自动执行双重评估流程:基于专家量表的深度分析评估和基于引用验证的事实核查。评估结果将生成详细的报告文件,包括每个问题的覆盖度评分、引用支持率等关键指标。该框架支持模块化扩展,用户可以根据需要调整评估标准或引入新的验证模型,具有较高的灵活性和可扩展性。
背景与挑战
背景概述
ResearcherBench是由GAIR-NLP团队于2025年推出的前沿科学问题评估基准,旨在评估深度人工智能研究系统(DARS)作为真正科研合作伙伴的潜力。该数据集包含来自35个不同AI研究领域的65个经过专家精心筛选的前沿研究问题,这些问题源自实验室内部讨论、顶尖AI研究者访谈以及科学论坛讨论等真实科研场景。通过构建双重评估框架,该数据集不仅关注系统生成内容的引用准确性,更着重评估其对前沿科学问题的深度理解和创新性思考能力,为评估AI系统在科研辅助方面的表现提供了重要基准。
当前挑战
ResearcherBench面临的核心挑战体现在两个方面:在领域问题层面,如何准确评估AI系统对前沿科学问题的理解深度和创新性思考能力,而非仅仅衡量其信息检索的准确性;在构建过程层面,需要确保收集的研究问题真正代表各领域的前沿挑战,同时设计出能够全面评估科研能力的指标体系。具体而言,构建过程中需解决专家知识整合、评估标准量化、跨领域问题平衡等难题,这对数据收集方法和评估框架设计提出了极高要求。
常用场景
经典使用场景
在人工智能研究领域,ResearcherBench数据集为评估深度AI研究系统(DARS)的前沿科学问题解决能力提供了标准化测试平台。该数据集通过精心筛选的65个跨35个AI研究主题的真实科学问题,模拟了实验室内部讨论、顶尖学者访谈等典型科研场景,使研究者能够系统评估DARS在技术细节分析、文献综述和开放咨询三类任务中的表现。其独特的双评估框架既考察系统生成内容的洞察深度,又验证其引用事实的准确性,为比较不同DARS的科研辅助能力建立了统一基准。
解决学术问题
该数据集有效解决了AI研究领域两个关键学术问题:一是缺乏针对前沿科学问题的系统性评估工具,传统基准多集中于封闭式问答或简单信息检索;二是难以量化评估AI系统的科研创新能力。通过专家设计的评估量表和自动化事实核查相结合的方法,ResearcherBench首次实现了对DARS在真实科研场景中洞察生成质量与事实准确性的多维度测量,为理解当前AI系统的科研协作潜力提供了实证基础。其评估结果揭示了DARS更擅长开放式研究构思而非精确技术指导的重要发现。
衍生相关工作
基于ResearcherBench的评估范式,学术界已衍生出多个重要研究方向。MIT团队开发了增强型科研评估框架SciAssess,扩展了原始数据集的问题类型;斯坦福研究者受其启发创建了ClinicalBench用于医学研究评估。数据集的双评估机制还被Adaptive AI实验室改进为动态权重调整系统,而其事实核查模块则演化出独立的科研诚信验证工具FactGuard。这些衍生工作共同推动了AI科研辅助系统的标准化评估体系发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务