DeepScholar-Bench
收藏DeepScholar-Bench 数据集概述
数据集简介
DeepScholar-Bench 是一个用于生成式研究合成的实时基准数据集,旨在对 AI 系统进行整体评估,特别针对 DeepResearch 领域的新兴能力。
核心功能
- 数据集脚本:提供自动化数据收集管道,可从近期高质量 Arxiv 论文中收集新数据集,支持自定义配置(如有效日期范围和 Arxiv 领域选择)
- 评估套件:用于测量长篇研究合成答案的性能,支持全面的评估指标,与人类标注具有高度一致性
技术特性
- 评估套件基于 LOTUS 框架构建(https://github.com/lotus-data/lotus)
- 支持自定义 LLM 评估器实例化
- 使用 Python 3.10 环境
快速开始
数据收集
bash python -m data_pipeline.main --categories cs.AI --start-date 2025-05-01
系统评估
bash python -m eval.main --modes deepscholar_base --evals organization nugget_coverage reference_coverage cite_p --input_folder tests/baselines_results/deepscholar_base_gpt_4.1 --output_folder results --dataset_path dataset/related_works_combined.csv --model_name gpt-4o
相关资源
- 论文:https://arxiv.org/abs/2508.20033
- 实时排行榜:https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html
- 贡献表单:https://docs.google.com/forms/d/e/1FAIpQLSeug4igDHhVUU3XnrUSeMVRUJFKlHP28i8fcBAu_LHCkqdV1g/viewform
引用信息
bibtex @article{patel2025deepscholarbench, title={DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis}, author={Liana Patel and Negar Arabzadeh and Harshit Gupta and Ankita Sundar and Ion Stoica and Matei Zaharia and Carlos Guestrin}, year={2025}, url={https://arxiv.org/abs/2508.20033}, }




