ResearcherBench
收藏ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry
📋 数据集概述
ResearcherBench是一个专门用于评估深度AI研究系统(DARS)在科学前沿问题上能力的综合评估基准。
核心特点
- 前沿研究问题数据集:包含65个从真实科学场景中精心挑选的研究问题,涵盖35个不同的AI研究主题。
- 双重评估框架:结合专家设计的标准评估和事实评估,全面衡量DARS的能力。
- 系统性评估:对主流商业系统进行系统评估,了解其当前能力和局限性。
🏗️ 数据集构建
数据收集策略
- 实验室内部研究讨论:研究人员积极解决未解决的技术挑战。
- 与领先AI研究人员的访谈:揭示新兴研究方向和开放问题。
- 科学论坛讨论:讨论实施挑战和理论差距。
数据集组成
- 问题类型:技术细节、文献综述和开放咨询。
- 覆盖领域:35个不同的AI主题,如模型架构、强化学习、AI政策和伦理。
🔬 评估框架
1. 标准评估
- 关键见解提取:使用Claude-3.7-Sonnet从多源上下文中提取关键见解。
- 专家标准设计:经验丰富的研究人员将提取的见解转化为加权评估标准(1-3分)。
- 评估方法:评估DARS响应是否覆盖专家标准中指定的关键见解,并计算加权覆盖率。
2. 事实评估
- 声明提取:提取DARS生成报告中的所有事实声明及其上下文。
- 引用支持验证:验证每个URL-声明-上下文三元组是否支持相应声明。
- 评估方法:计算忠实度(Faithfulness)和基础性(Groundedness)两个指标。
📊 评估结果
主要性能
| 模型 | 覆盖率 | 忠实度 | 基础性 |
|---|---|---|---|
| OpenAI Deep Research | 0.7032 | 0.84 | 0.34 |
| Gemini Deep Research | 0.6929 | 0.86 | 0.59 |
| Grok3 DeepSearch | 0.4414 | 0.69 | 0.32 |
| Grok3 DeeperSearch | 0.4398 | 0.80 | 0.31 |
| Perplexity Deep Research | 0.4800 | 0.85 | 0.56 |
| GPT-4o Search Preview | 0.3576 | 0.86 | 0.39 |
| Perplexity: Sonar Reasoning Pro | 0.4663 | 0.62 | 0.68 |
关键见解
- DARS作为研究构思伙伴:所有评估系统在开放咨询问题上表现更好。
- 合成优于检索:高基础性并不一定与研究质量相关。
🚀 快速开始
环境设置
bash git clone https://github.com/GAIR-NLP/ResearcherBench.git cd ResearcherBench pip install -r requirements.txt export OPENAI_API_KEY="your-openai-api-key" export JINA_API_KEY="your-jina-api-key"
数据准备
bash cp your_model_responses.json data/user_data/<model_name>.json export MODEL=<model_name>
运行评估
bash ./eval.sh
查看结果
bash cat results/rubric_eval/<model_name>/<model_name>_evaluation_results.txt cat results/factual_eval/<model_name>/factual_analysis.json
📁 项目结构
ResearcherBench/ ├── data/ │ ├── eval_data/ │ │ ├── rubric.json │ │ └── questions.json │ └── user_data/ ├── code/ │ ├── rubric_eval/ │ └── faithfulness_eval/ ├── results/ │ ├── rubric_eval/ │ ├── factual_eval/ │ ├── claims/ │ └── logs/ ├── eval.sh ├── requirements.txt └── README.md
📋 数据格式
json [ { "id": 1, "question": "What are the latest developments in quantum computing?", "response": "Recent advances in quantum computing include... [1]" } ]
📚 引用
bibtex @misc{xu2025researcherbenchevaluatingdeepai, title={ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry}, author={Tianze Xu and Pengrui Lu and Lyumanshan Ye and Xiangkun Hu and Pengfei Liu}, year={2025}, eprint={2507.16280}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2507.16280}, }




