five

DeepScholar-Bench

收藏
github2025-08-29 更新2025-08-31 收录
下载链接:
https://github.com/guestrin-lab/deepscholar-bench
下载链接
链接失效反馈
官方服务:
资源简介:
DeepScholar-Bench提供了一个实时基准数据集和生成性研究合成的全面评估,这是为深度研究设计的AI系统的新兴能力。该存储库提供数据集脚本,允许您使用自动化数据收集管道从最近高质量的Arxiv论文中收集新数据集,以及一个评估套件,用于衡量长篇研究合成答案的性能

DeepScholar-Bench provides a comprehensive evaluation suite integrating real-time benchmark datasets and generative research synthesis functions, dedicated to assessing the emerging capabilities of AI systems designed for in-depth scholarly research. This repository offers dataset scripts that enable users to collect new datasets from recent high-quality arXiv papers through automated data collection pipelines, as well as an evaluation suite for measuring the performance of long-form research synthesis responses.
创建时间:
2025-08-29
原始信息汇总

DeepScholar-Bench 数据集概述

数据集简介

DeepScholar-Bench 是一个用于生成式研究合成的实时基准数据集,旨在对 AI 系统进行整体评估,特别针对 DeepResearch 领域的新兴能力。

核心功能

  • 数据集脚本:提供自动化数据收集管道,可从近期高质量 Arxiv 论文中收集新数据集,支持自定义配置(如有效日期范围和 Arxiv 领域选择)
  • 评估套件:用于测量长篇研究合成答案的性能,支持全面的评估指标,与人类标注具有高度一致性

技术特性

  • 评估套件基于 LOTUS 框架构建(https://github.com/lotus-data/lotus)
  • 支持自定义 LLM 评估器实例化
  • 使用 Python 3.10 环境

快速开始

数据收集

bash python -m data_pipeline.main --categories cs.AI --start-date 2025-05-01

系统评估

bash python -m eval.main --modes deepscholar_base --evals organization nugget_coverage reference_coverage cite_p --input_folder tests/baselines_results/deepscholar_base_gpt_4.1 --output_folder results --dataset_path dataset/related_works_combined.csv --model_name gpt-4o

相关资源

  • 论文:https://arxiv.org/abs/2508.20033
  • 实时排行榜:https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html
  • 贡献表单:https://docs.google.com/forms/d/e/1FAIpQLSeug4igDHhVUU3XnrUSeMVRUJFKlHP28i8fcBAu_LHCkqdV1g/viewform

引用信息

bibtex @article{patel2025deepscholarbench, title={DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis}, author={Liana Patel and Negar Arabzadeh and Harshit Gupta and Ankita Sundar and Ion Stoica and Matei Zaharia and Carlos Guestrin}, year={2025}, url={https://arxiv.org/abs/2508.20033}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在生成式研究合成领域,DeepScholar-Bench采用自动化数据收集流程构建数据集,通过配置arXiv的高质量论文来源,支持用户自定义时间范围和学科类别。该流程从近期arXiv论文中系统提取研究内容,确保数据的时效性与学术权威性,为生成式AI系统提供可靠且动态更新的基准资源。
特点
DeepScholar-Bench作为动态评估基准,具备高度可定制性与全面性,涵盖多学科领域的最新研究成果。其特色在于支持实时数据更新与自动化评估框架,集成多种指标如组织性、信息覆盖度和引用精确度,与人工标注高度一致,为生成式研究合成系统提供科学且可复现的性能衡量标准。
使用方法
用户可通过克隆代码库并安装依赖环境,快速配置数据收集与评估流程。利用命令行工具指定arXiv类别与时间范围收集研究数据,随后调用评估模块,选择判据模型与性能指标,对生成系统的答案进行自动化评测。该流程支持结果导出与可视化,便于深入分析系统表现与优化研究方向。
背景与挑战
背景概述
DeepScholar-Bench由华盛顿大学Guestrin实验室于2025年推出的生成式研究合成评估基准,其核心研究聚焦于人工智能系统在深度研究场景下的文献综合能力。该数据集通过自动化流水线采集arXiv平台的高质量学术论文,构建动态更新的评估体系,旨在推动生成式学术写作技术的标准化发展,为科研智能化提供关键基础设施。
当前挑战
该数据集需解决生成式研究合成中多源文献整合、学术规范遵循与创新性表达的平衡等核心难题。构建过程中面临动态数据更新的时效性控制、跨学科领域文献的质量筛选,以及自动化评估指标与人类专家评判一致性校准等挑战,需确保基准的持续可靠性与学术严谨性。
常用场景
经典使用场景
在人工智能驱动的深度研究领域,DeepScholar-Bench作为动态基准测试平台,主要用于评估生成式研究综述系统的综合能力。该系统通过自动化流程收集arXiv平台最新高质量论文数据,构建持续更新的评测框架,使研究人员能够针对特定学科领域(如计算机人工智能)生成结构化的文献综述,并系统评估生成内容的组织逻辑性、关键观点覆盖度和文献引用准确性。
实际应用
在实际应用层面,DeepScholar-Bench为学术信息服务机构、科研管理平台和智能文献分析工具提供了核心技术支持。科研人员可利用该平台实时生成特定领域的研究现状报告,学术出版商可借助其自动化评估学术综述的质量,教育机构则能将其整合至学术写作辅导系统。其动态更新特性尤其适合追踪新兴交叉学科的发展轨迹,为知识管理领域提供了持续演进的技术基础设施。
衍生相关工作
基于该数据集衍生的经典工作包括采用LOTUS框架构建的LLM评估体系,开发了针对学术综述生成任务的专用评判模型。相关研究聚焦于多维度评估指标的优化,如文献覆盖度计算模型、引文精准度检测算法以及知识单元提取技术。这些衍生成果不仅推动了生成式研究综述的技术进步,更为学术自然语言处理领域建立了新的技术标准与评估范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作