DeepScholar-Bench

Name: DeepScholar-Bench
Creator: 斯坦福大学, 加州大学伯克利分校
Published: 2025-08-28 00:36:34
License: 暂无描述

arXiv2025-08-28 更新2025-11-25 收录

下载链接：

https://hf-mirror.com/datasets/deepscholar-bench/DeepScholarBench

下载链接

链接失效反馈

官方服务：

资源简介：

DeepScholar-Bench是一个实时基准数据集和全面的自动评估框架，旨在评估生成式研究综合能力。该数据集从最新的高质量ArXiv论文中提取查询，重点关注生成论文相关部分的现实研究综合任务，通过检索、综合和引用先前的研究来生成论文的相关部分。该数据集旨在评估研究综合的关键能力，并确保评估反映真实的高质量研究。

DeepScholar-Bench is a real-time benchmark dataset and comprehensive automatic evaluation framework designed to assess generative research synthesis capabilities. It extracts queries from recent high-quality ArXiv papers, focusing on realistic research synthesis tasks for generating relevant sections of academic papers, where models are required to retrieve, synthesize and cite prior research to produce the corresponding paper sections. This benchmark aims to evaluate the core competencies of research synthesis and ensure that the evaluation reflects authentic, high-quality academic research.

提供机构：

斯坦福大学, 加州大学伯克利分校

创建时间：

2025-08-28

搜集汇总

数据集介绍

构建方式

在人工智能研究领域，生成式研究合成系统的评估面临数据陈旧与标准缺失的挑战。DeepScholar-Bench通过自动化数据采集框架，从ArXiv平台抓取近期高质量预印本论文，构建动态基准数据集。该流程筛选跨18个学科领域的论文，提取标题、摘要及相关工作章节，并利用ArXiv与OpenAlex API整合引文元数据，形成以生成论文相关工作章节为核心任务的查询-范例对，确保数据时效性与领域多样性。

特点

该数据集以实时演进的特性突破传统静态基准的局限，其查询源自最新学术成果，有效规避训练数据污染风险。核心特征体现在三维评估体系：知识合成维度衡量生成内容的组织结构与关键事实覆盖度，检索质量维度评估文献来源的相关性与学术影响力，可验证性维度通过引文精度与主张覆盖度检验论述的溯源性。这种多维度度量框架与人类专家评估高度一致，为复杂长文本合成任务提供了精准的性能标尺。

使用方法

研究团队可通过标准化接口接入该基准，输入论文描述信息后，系统将自动执行网络检索与内容合成任务。评估阶段采用基于大语言模型的自动化评判机制，对生成结果进行七项指标的全方位量化分析。使用者既可横向比较不同系统在知识合成、检索质量与可验证性维度的表现，也能通过持续更新的查询集开展纵向性能追踪，为生成式研究合成系统的迭代优化提供实证依据。

背景与挑战

背景概述

DeepScholar-Bench由斯坦福大学与加州大学伯克利分校的研究团队于2025年联合推出，致力于解决生成式研究合成系统的评估难题。该数据集以arXiv最新预印本论文为数据源，通过自动化流程构建动态更新的基准测试框架，其核心研究任务聚焦于学术论文相关章节的自动生成，要求系统从实时网络检索文献并完成多源知识融合与引证。这一创新设计突破了传统问答数据集对短文本答案的局限，为评估人工智能在复杂学术场景下的综合推理能力提供了重要基础设施。

当前挑战

在领域问题层面，DeepScholar-Bench需应对生成式研究合成的三重挑战：知识合成要求系统从海量文献中提炼关键论点并构建逻辑连贯的长文本；检索质量需平衡文献相关性与学术影响力，精准定位领域内重要成果；可验证性则要求生成内容具备完整的引证链条。在构建过程中，数据集面临动态数据管线的技术复杂性，需确保arXiv论文的时效性与质量过滤，同时开发与人类专家判断高度一致的自动化评估指标，克服长文本合成任务缺乏确定性标准答案的固有难题。

常用场景

经典使用场景

在生成式研究合成领域，DeepScholar-Bench作为动态基准数据集，其经典应用场景聚焦于评估系统在真实学术环境中的文献综述能力。该数据集通过从最新ArXiv论文中提取研究主题，要求模型基于给定论文摘要自动生成相关研究章节，模拟学者撰写文献综述的完整流程。这种设计使得评估不仅关注文本生成质量，更强调对前沿研究动态的实时把握能力，为衡量AI系统的学术研究合成水平提供了标准化测试平台。

衍生相关工作

该数据集的发布催生了多个重要研究方向，包括基于LOTUS语义算子的DeepScholar-base参考框架、针对长文本合成的多维度评估方法创新，以及检索增强生成系统的迭代优化。相关衍生工作进一步拓展到跨模态学术知识合成、动态基准维护机制设计等领域，推动了OpenScholar、STORM等开源系统的性能提升，并为构建下一代智能科研基础设施奠定了理论基础。

数据集最近研究