ReportBench

github2025-08-21 更新2025-08-22 收录

下载链接：

https://github.com/ByteDance-BandAI/ReportBench

下载链接

链接失效反馈

官方服务：

资源简介：

ReportBench是一个全面的基准数据集，用于评估深度研究代理的事实质量和引用行为。该数据集利用专家撰写的调查论文作为真实基准，通过反向工程生成领域特定的提示，并提供自动化工具来评估引用和非引用内容。数据集包含600篇高质量的同行评审调查论文，并构建了100个任务的基准测试集，涵盖十个应用领域

ReportBench is a comprehensive benchmark dataset dedicated to evaluating the factual quality and citation behavior of deep research agents. This dataset uses expert-authored survey papers as the ground-truth benchmark, generates domain-specific prompts through reverse engineering, and provides automated tools to assess both cited and uncited content. The dataset contains 600 high-quality peer-reviewed survey papers, and constructs a benchmark test set with 100 tasks spanning ten application domains.

创建时间：

2025-08-08

原始信息汇总

ReportBench 数据集概述

数据集简介

ReportBench 是一个用于评估深度研究代理（Deep Research agents）事实质量和引用行为的综合基准。该基准利用专家撰写的综述论文作为真实参考，通过逆向工程生成领域特定的提示，并提供自动化工具来评估引用和非引用内容。

基准构建

1. 综述论文识别

基于 arXiv 元数据快照（2020年后）
通过标题/摘要筛选包含“survey”或“review”的论文
通过元数据和LLM分类确认出版状态
保留600篇高质量的同行评审综述论文

2. 细粒度参考文献提取

下载并解析LaTeX源码以提取所有文内引用命令
构建反映每篇综述真实引用模式的金标准参考文献集

3. 提示生成

通过LLM逆向工程生成三个级别的提示（句子、段落、细节丰富）
强制执行与每篇论文出版截止时间匹配的时间约束
添加明确指令以避免引用原始综述本身

4. 应用领域分布

使用LLM将综述分类到十个领域
通过下采样调整分布以实现平衡，并采样三种提示类型之一形成100个任务的基准

评估框架

内容质量评估

URL提取：从报告中提取所有URL引用
标准化和检索：标准化和去重URL，检索每个网页内容
文档类型分类：使用LLM确定URL是否对应学术文章并提取标题
标题匹配：比较提取标题与专家撰写报告的金标准参考文献，计算重叠率

引用语句评估

语句提取：识别生成报告中所有包含明确引用的句子
来源检索：抓取每个引用来源的全文
语义匹配：使用LLM定位支持段落并验证一致性
评分：计算每个报告的引用对齐分数

非引用语句评估

语句提取：提取无引用的事实主张，过滤常识内容
网络连接事实检查：查询多个网络连接的LLM独立验证每个主张
投票机制：通过多数投票聚合判断计算事实准确性

评估结果

测试模型	精确率	召回率	平均引用数	引用匹配率	引用语句数	非引用准确率	非引用语句数
OpenAI Deep Research	0.385	0.033	9.89	78.87%	88.2	95.83%	38.9
Gemini Deep Research	0.145	0.036	32.42	72.94%	96.2	92.21%	49.6
gemini-2.5-flash	0.237	0.012	5.47	44.88%	12.1	98.52%	11.5
gemini-2.5-pro	0.269	0.010	4.27	59.24%	6.58	96.08%	9.35
o3	0.299	0.031	12.26	31.43%	16.16	82.22%	11.51
claude4-sonnet	0.337	0.021	6.74	73.67%	14.93	92.64%	17.07

数据集结构

ReportBench Release v1.1：包含主数据集文件（JSON Lines格式）和地面真实参考数据
Core Processing Scripts：核心处理脚本，包括OpenAI和Gemini处理器、语句评估器等
Configuration & Utilities：配置和工具文件
Evaluation Modules：评估模块，包括语句提取、内容抓取、语义匹配等
Scripts & Templates：脚本和模板文件

使用要求

Python 3.8+
必要的Python包：pandas, pyyaml, langchain-openai, tenacity, tqdm, requests, pathlib, beautifulsoup4, firecrawl-py, python-dotenv
API密钥配置：OpenAI、Azure OpenAI、Firecrawl、SERPAPI

引用信息

bibtex @software{Li_ReportBench_Evaluating_Deep_2025, author = {Li, Minghao and Zeng, Ying and Cheng, Zhihao and Ma, Cong and Jia, Kai}, license = {Apache-2.0}, month = aug, title = {{ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks}}, url = {https://github.com/ByteDance-BandAI/ReportBench}, version = {1.1.0}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在学术研究智能化评估领域，ReportBench数据集通过系统化流程构建而成。其构建始于对arXiv平台2020年后元数据的筛选，精准识别并保留600篇高质量同行评审综述论文作为黄金标准参考。随后采用LaTeX源码解析技术提取文本内引用命令，构建与原始综述真实引用模式完全一致的参考集合。基于大语言模型逆向生成句子级、段落级及细节丰富型三层提示模板，并严格匹配每篇论文的发表时间截点，同时明确排除对原始综述本身的引用。最终通过领域分类与下采样调整，形成包含100个任务的平衡基准测试集。

使用方法

使用ReportBench数据集需遵循标准化评估流程。用户需预先配置Python环境并安装指定依赖包，包括pandas、langchain-openai等核心库。针对不同类型的模型输出，数据处理方式有所区分：网页版深度研究产品需通过专用处理器解析捕获数据，而API/本地模型可直接处理符合JSON格式规范的输出文件。评估管道依次执行语句提取器、引用评估器和指标计算器三大模块，最终生成包含引用对齐分数和事实准确率的综合评估结果。用户可通过修改配置文件中的API密钥参数适配不同的模型服务，并通过环境变量设置调整各项评估参数。

背景与挑战

背景概述

在人工智能研究领域，深度研究智能体的评估标准长期缺乏系统性框架。ReportBench由字节跳动BandAI团队于2025年创建，旨在通过学术综述任务构建评估基准。该数据集基于arXiv平台2020年后发表的600篇高质量同行评审综述论文，通过逆向工程生成领域特定提示，构建自动化验证工具。其核心研究聚焦于深度研究智能体的事实质量与引用行为评估，为学术文献自动生成系统提供了标准化测试环境，显著推动了人工智能在学术研究自动化领域的发展。

当前挑战

ReportBench主要解决学术文献自动生成中的事实准确性与引用规范性双重挑战。在领域问题层面，需应对自动生成内容与专家综述间的事实一致性验证，以及非引用陈述的可信度评估。构建过程中面临多模态数据处理难题，包括LaTeX源码解析、引文模式重建与时间约束嵌入。同时需确保600篇综述论文的领域均衡分布，并通过大语言模型实现细粒度提示逆向工程，这些技术挑战共同构成了数据集构建的核心难点。

常用场景

经典使用场景

在学术研究智能化进程中，ReportBench作为深度研究智能体的评估基准，其经典应用场景聚焦于对自动文献综述生成系统的全面性能验证。该数据集通过逆向工程构建领域特异的提示模板，模拟真实学术调查任务，要求智能体在特定时间约束下生成结构化的综述报告。评估过程涵盖引文匹配率、事实准确性、非引述陈述验证等多维度指标，为研究社区提供了标准化测试框架。

解决学术问题

ReportBench有效解决了智能学术写作中引文可靠性与事实一致性验证的核心难题。通过构建专家撰写的调查论文作为黄金标准，该数据集建立了自动化的双路径评估体系：既检验引述内容与原始文献的语义对齐度，又通过多模型投票机制验证非引述陈述的事实准确性。这种设计显著提升了自动文献综述系统的可信度评估标准，为学术诚信保障提供了可量化的解决方案。

实际应用

在实际应用层面，ReportBench已被集成到多家科技企业的研究产品开发流程中。OpenAI和Google的深度研究产品均采用该基准进行迭代优化，其评估结果直接指导模型引文生成策略的改进。学术出版机构正探索利用该框架对预印本进行自动化质量筛查，而教育机构则将其作为学术写作辅助工具的校准标准，确保生成内容的学术规范性与事实准确性。

数据集最近研究