DeepScholar-Bench

github2025-08-29 更新2025-08-31 收录

下载链接：

https://github.com/guestrin-lab/deepscholar-bench

下载链接

链接失效反馈

官方服务：

资源简介：

DeepScholar-Bench提供了一个实时基准数据集和生成性研究合成的全面评估，这是为深度研究设计的AI系统的新兴能力。该存储库提供数据集脚本，允许您使用自动化数据收集管道从最近高质量的Arxiv论文中收集新数据集，以及一个评估套件，用于衡量长篇研究合成答案的性能

DeepScholar-Bench provides a comprehensive evaluation suite integrating real-time benchmark datasets and generative research synthesis functions, dedicated to assessing the emerging capabilities of AI systems designed for in-depth scholarly research. This repository offers dataset scripts that enable users to collect new datasets from recent high-quality arXiv papers through automated data collection pipelines, as well as an evaluation suite for measuring the performance of long-form research synthesis responses.

创建时间：

2025-08-29

原始信息汇总

DeepScholar-Bench 数据集概述

数据集简介

DeepScholar-Bench 是一个用于生成式研究合成的实时基准数据集，旨在对 AI 系统进行整体评估，特别针对 DeepResearch 领域的新兴能力。

核心功能

数据集脚本：提供自动化数据收集管道，可从近期高质量 Arxiv 论文中收集新数据集，支持自定义配置（如有效日期范围和 Arxiv 领域选择）
评估套件：用于测量长篇研究合成答案的性能，支持全面的评估指标，与人类标注具有高度一致性

技术特性

评估套件基于 LOTUS 框架构建（https://github.com/lotus-data/lotus）
支持自定义 LLM 评估器实例化
使用 Python 3.10 环境

快速开始

数据收集

bash python -m data_pipeline.main --categories cs.AI --start-date 2025-05-01

系统评估

bash python -m eval.main --modes deepscholar_base --evals organization nugget_coverage reference_coverage cite_p --input_folder tests/baselines_results/deepscholar_base_gpt_4.1 --output_folder results --dataset_path dataset/related_works_combined.csv --model_name gpt-4o

引用信息

bibtex @article{patel2025deepscholarbench, title={DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis}, author={Liana Patel and Negar Arabzadeh and Harshit Gupta and Ankita Sundar and Ion Stoica and Matei Zaharia and Carlos Guestrin}, year={2025}, url={https://arxiv.org/abs/2508.20033}, }

搜集汇总

数据集介绍

构建方式

在生成式研究合成领域，DeepScholar-Bench采用自动化数据收集流程构建数据集，通过配置arXiv的高质量论文来源，支持用户自定义时间范围和学科类别。该流程从近期arXiv论文中系统提取研究内容，确保数据的时效性与学术权威性，为生成式AI系统提供可靠且动态更新的基准资源。

特点

DeepScholar-Bench作为动态评估基准，具备高度可定制性与全面性，涵盖多学科领域的最新研究成果。其特色在于支持实时数据更新与自动化评估框架，集成多种指标如组织性、信息覆盖度和引用精确度，与人工标注高度一致，为生成式研究合成系统提供科学且可复现的性能衡量标准。

使用方法

用户可通过克隆代码库并安装依赖环境，快速配置数据收集与评估流程。利用命令行工具指定arXiv类别与时间范围收集研究数据，随后调用评估模块，选择判据模型与性能指标，对生成系统的答案进行自动化评测。该流程支持结果导出与可视化，便于深入分析系统表现与优化研究方向。

背景与挑战

背景概述

DeepScholar-Bench由华盛顿大学Guestrin实验室于2025年推出的生成式研究合成评估基准，其核心研究聚焦于人工智能系统在深度研究场景下的文献综合能力。该数据集通过自动化流水线采集arXiv平台的高质量学术论文，构建动态更新的评估体系，旨在推动生成式学术写作技术的标准化发展，为科研智能化提供关键基础设施。

当前挑战

该数据集需解决生成式研究合成中多源文献整合、学术规范遵循与创新性表达的平衡等核心难题。构建过程中面临动态数据更新的时效性控制、跨学科领域文献的质量筛选，以及自动化评估指标与人类专家评判一致性校准等挑战，需确保基准的持续可靠性与学术严谨性。

常用场景

经典使用场景

在人工智能驱动的深度研究领域，DeepScholar-Bench作为动态基准测试平台，主要用于评估生成式研究综述系统的综合能力。该系统通过自动化流程收集arXiv平台最新高质量论文数据，构建持续更新的评测框架，使研究人员能够针对特定学科领域（如计算机人工智能）生成结构化的文献综述，并系统评估生成内容的组织逻辑性、关键观点覆盖度和文献引用准确性。

实际应用

在实际应用层面，DeepScholar-Bench为学术信息服务机构、科研管理平台和智能文献分析工具提供了核心技术支持。科研人员可利用该平台实时生成特定领域的研究现状报告，学术出版商可借助其自动化评估学术综述的质量，教育机构则能将其整合至学术写作辅导系统。其动态更新特性尤其适合追踪新兴交叉学科的发展轨迹，为知识管理领域提供了持续演进的技术基础设施。

衍生相关工作

基于该数据集衍生的经典工作包括采用LOTUS框架构建的LLM评估体系，开发了针对学术综述生成任务的专用评判模型。相关研究聚焦于多维度评估指标的优化，如文献覆盖度计算模型、引文精准度检测算法以及知识单元提取技术。这些衍生成果不仅推动了生成式研究综述的技术进步，更为学术自然语言处理领域建立了新的技术标准与评估范式。

以上内容由遇见数据集搜集并总结生成