DR³-Eval

github2026-03-19 更新2026-03-20 收录

下载链接：

https://github.com/NJU-LINK/DR3-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

DR³-Eval是一个**现实、可重现且多模态**的深度研究代理评估基准，专注于多文件报告生成任务。它通过以下设计解决了现有基准在评估深度研究代理时的**现实性**、**可控性**和**可重现性**之间的基本矛盾：真实用户场景、静态沙盒语料库、逆向构建方法和多维评估。

DR³-Eval is a **realistic, reproducible, and multimodal** benchmark for evaluating deep research agents, focusing on the task of multi-document report generation. It resolves the fundamental conflict among realism, controllability, and reproducibility when evaluating deep research agents using existing benchmarks, through four design schemes: real-world user scenarios, static sandbox corpus, reverse construction method, and multi-dimensional evaluation.

创建时间：

2026-03-10

原始信息汇总

DR³-Eval 数据集概述

数据集简介

DR³-Eval 是一个面向深度研究智能体的现实、可复现、多模态评估基准，专注于多文件报告生成任务。该基准旨在解决现有评估方法在现实性、可控性和可复现性之间的根本矛盾。

核心设计特点

真实用户场景：任务基于真实用户提供的多模态文件构建，涵盖3个主要领域和13个子领域。
静态沙箱语料库：为每个任务构建独立的静态研究沙箱，其中包含支持性、干扰性和噪声文档。
逆向构建方法：查询从经过验证的证据文档中逆向工程生成，消除了评估的模糊性。
多维度评估：包含五个评估维度——信息召回、事实准确性、引用覆盖率、指令遵循和深度质量。

数据集统计

任务数量：100个独立任务（50个英文 + 50个中文）。
领域覆盖：3个主要领域，13个子领域。
多模态输入：68%的任务涉及多模态输入。
用户文件：平均每个任务包含2.24个用户文件，最多可达6个。
沙箱语料库：在512k配置下，平均包含465.5个网页。

评估维度与指标

维度	指标	描述
信息检索	信息召回	报告中覆盖用户文件和沙箱语料库关键见解的程度。
信息检索	引用覆盖率	报告引用必要源文档的程度。
报告生成	事实准确性	报告中引用声明的事实正确性。
报告生成	指令遵循	报告是否满足任务查询中指定的所有要求。
报告生成	深度质量	报告的分析深度和逻辑严谨性。

实验关键发现

对8个先进大语言模型进行全面评估后，主要发现如下：

极具挑战性：最佳模型Claude Sonnet 4在512k配置下平均得分仅为65.6。
上下文越长，性能越低：噪声和干扰信息使模型难以定位有效证据。
指令遵循不等于事实准确性：部分模型生成的报告“看似”完整但包含事实错误。
跨领域性能差异显著。

数据集访问与使用

访问地址：数据集托管于 HuggingFace：https://huggingface.co/datasets/NJU-LINK/DR3-Eval
快速开始：支持通过命令行运行单任务或批量任务，并进行多维度评估。

许可与引用

许可证：本项目采用 Apache License 2.0 许可证。
引用格式：如使用本工作，请引用相关 arXiv 预印本文章。

相关资源

项目主页：https://nju-link.github.io/DR3-Eval/
基准代理：为验证基准有效性，开发了基于 MiroFlow 框架的 DR³-Agent 多智能体深度研究系统。

搜集汇总

数据集介绍

构建方式

在深度研究智能体评估领域，DR³-Eval数据集通过创新的逆向构建方法实现了真实性与可控性的平衡。该数据集从真实用户提供的多模态文件出发，覆盖了三大领域及十三个子领域，模拟了实际的研究场景。每个任务均配备一个独立的静态沙箱语料库，其中包含了支持性、干扰性及噪声文档，通过可控的信噪比设计确保了评估环境的可复现性。查询语句则依据已验证的证据文档进行逆向工程生成，有效消除了评估过程中的模糊性，为深度研究任务提供了坚实的基准。

特点

DR³-Eval数据集以其多维度、多模态及高挑战性的特点脱颖而出。它不仅支持用户文件的上传与静态沙箱语料库的接入，还涵盖了文本、图像、音频等多种模态的输入，其中约68%的任务涉及多模态内容。数据集包含100个独立任务，平均每个任务配备2.24个用户文件，沙箱语料库在512k配置下平均包含465.5个网页，提供了丰富的评估素材。其评估体系涵盖信息召回、事实准确性、引用覆盖度、指令遵循及深度质量五个维度，全面衡量智能体的研究能力，实验表明即使顶尖模型也仅能达到65.6的平均分，体现了其极高的评估难度。

使用方法

用户可通过HuggingFace平台直接获取DR³-Eval数据集，并利用其提供的工具链进行快速部署与评估。环境配置依赖uv工具管理依赖项，并通过编辑环境变量设置API密钥。运行DR³-Agent时，支持单任务与批量任务两种模式，用户可指定查询语句、上下文规模及语言模型配置，并在离线环境下使用静态沙箱进行测试。评估阶段则通过专用脚本对生成结果进行多维度自动化评分，支持多线程处理以提升效率。该流程确保了评估过程的一致性与可复现性，为深度研究智能体的性能比较提供了标准化框架。

背景与挑战

背景概述

在人工智能研究领域，对深度研究智能体进行系统化评估一直面临基准测试在真实性、可控性与可复现性之间的固有张力。DR³-Eval数据集由南京大学NJU-LINK团队于2026年创建，旨在构建一个面向多文件报告生成任务的现实、可复现且多模态的评估基准。该数据集通过整合真实用户提供的多模态文件，覆盖三大领域与十三项子领域，并采用逆向构建方法与静态沙箱语料库设计，为核心研究问题——即如何精准评估智能体在复杂信息环境下的证据检索与综合报告能力——提供了创新性解决方案。其多维评估体系与严谨的构建方法论，为深度研究智能体的性能度量设立了新的标准，对推动具身智能与复杂任务求解研究具有显著影响力。

当前挑战

DR³-Eval数据集致力于解决深度研究智能体在多文件、多模态环境下进行证据检索与报告生成的评估挑战。其首要挑战在于如何在高度真实的用户场景中维持评估的可控性与可复现性，这要求基准既能模拟现实研究中的噪声与干扰信息，又能确保任务路径的确定性。在构建过程中，团队需克服多模态文件对齐、静态沙箱语料库的信号噪声比控制，以及通过逆向工程生成无歧义查询等关键技术难题。此外，设计能够全面衡量信息召回、事实准确性、引用覆盖度、指令遵循与深度质量的多维评估协议，亦是确保基准科学性与严谨性的核心挑战。

常用场景

经典使用场景

在深度研究智能体评估领域，DR³-Eval数据集为多模态、多文件报告生成任务提供了经典测试平台。其核心场景在于模拟真实用户研究过程，智能体需从用户上传的多样化文件（如文档、图像、音频）以及静态沙箱知识库中检索证据，并综合生成结构严谨的研究报告。这一过程不仅考验模型的信息整合与推理能力，更通过可控的噪声环境与反向构建的查询设计，确保了评估的严谨性与可复现性，为深度研究智能体的能力边界提供了精准度量。

解决学术问题

该数据集有效解决了深度研究评估中长期存在的现实性、可控性与可复现性之间的张力问题。通过构建源自真实用户场景的多模态任务与独立静态沙箱，DR³-Eval为学术界提供了首个同时支持用户文件输入、静态知识库、多模态处理且评估无歧义的基准。其五维评估体系（信息召回、事实准确性、引用覆盖、指令遵循、深度质量）系统性地量化了智能体在证据检索与报告生成中的表现，为模型幻觉、长上下文噪声干扰、跨领域泛化等核心挑战提供了实证分析基础，推动了评估方法论向更严谨、更贴近实际应用的方向演进。

衍生相关工作

围绕DR³-Eval数据集，已衍生出多项具有影响力的研究工作。其配套的DR³-Agent系统采用基于MiroFlow框架的分层多智能体架构，集成了主智能体、RAG检索子智能体与文件阅读子智能体，为复杂研究任务的可控执行提供了范例。该框架进一步激发了针对长上下文噪声鲁棒性、迭代式密集检索优化、多模态感知工具集成等方向的探索。同时，数据集的多维评估协议也被后续研究广泛采纳或扩展，用于衡量不同模型架构与训练策略在深度研究任务上的有效性，促进了评估标准与智能体设计之间的协同进化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集