ResearcherBench
收藏ResearcherBench 数据集概述
🎯 数据集简介
ResearcherBench 是一个专门用于评估深度人工智能研究系统(DARS)在前沿科学问题上的能力的综合性评估基准。该数据集包含65个来自真实科学场景的研究问题,涵盖35个不同的AI研究主题。
🏗️ 数据集构建
数据收集策略
- 实验室内部研究讨论:研究人员积极应对未解决的技术挑战
- 与领先AI研究人员的访谈:揭示新兴研究方向和开放问题
- 科学论坛讨论:讨论实施挑战和理论差距
数据集组成
- 65个研究问题,分为三类:技术细节、文献综述和开放咨询
- 涵盖35个AI研究主题(如模型架构、强化学习、AI政策与伦理)
🔬 评估框架
1. 标准评估
- 关键见解提取:使用Claude-3.7-Sonnet分析多源上下文并提取关键见解
- 专家设计标准:经验丰富的研究人员将提取的见解转化为加权评估标准(1-3级)
- 评估方法:评估DARS响应是否涵盖专家设计标准中指定的关键见解
2. 事实评估
- 声明提取:提取DARS生成报告中的所有事实声明及其对应的上下文段落
- 引用支持验证:验证URL来源的文本内容是否支持相应声明
- 评估方法:计算忠实度分数和基础性分数
📊 评估结果
主要性能
| 模型 | 覆盖率 | 忠实度 | 基础性 |
|---|---|---|---|
| OpenAI Deep Research | 0.7032 | 0.84 | 0.34 |
| Gemini Deep Research | 0.6929 | 0.86 | 0.59 |
| Grok3 DeepSearch | 0.4414 | 0.69 | 0.32 |
| Grok3 DeeperSearch | 0.4398 | 0.80 | 0.31 |
| Perplexity Deep Research | 0.4800 | 0.85 | 0.56 |
| GPT-4o Search Preview | 0.3576 | 0.86 | 0.39 |
| Perplexity: Sonar Reasoning Pro | 0.4663 | 0.62 | 0.68 |
关键见解
- DARS作为研究构思伙伴表现更佳
- 高基础性不一定与研究质量相关
🚀 快速开始
环境设置
bash git clone https://github.com/GAIR-NLP/ResearcherBench.git cd ResearcherBench pip install -r requirements.txt export OPENAI_API_KEY="your-openai-api-key" export JINA_API_KEY="your-jina-api-key"
运行评估
bash ./eval.sh
📁 项目结构
ResearcherBench/ ├── data/ │ ├── eval_data/ │ │ ├── rubric.json │ │ └── questions.json │ └── user_data/ ├── code/ │ ├── rubric_eval/ │ └── faithfulness_eval/ ├── results/ │ ├── rubric_eval/ │ └── factual_eval/ └── README.md
📋 数据格式
json [ { "id": 1, "question": "What are the latest developments in quantum computing?", "response": "Recent advances in quantum computing include... [1]" } ]
📚 引用
bibtex @article{researcherbench2025, title={ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry}, author={Tianze Xu and Pengrui Lu and Lyumanshan Ye and Xiangkun Hu and Pengfei Liu}, journal={arXiv preprint arXiv:2025.xxxxx}, year={2025} }




