DR3-Eval

Hugging Face2026-03-16 更新2026-03-20 收录

下载链接：

https://huggingface.co/datasets/NJU-LINK/DR3-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

DR³-Eval 是一个用于深度研究代理评估的现实、可复现、多模态基准测试，专注于多文件报告生成任务。该数据集通过真实用户提供的多模态文件构建任务，涵盖3个主要领域和13个子领域。每个任务都包含一个独立的静态研究沙箱，其中包含支持性、分散性和噪声性文档。查询通过反向工程从已验证的证据文档中生成，消除了评估歧义。数据集包含100个独立任务（50个英文和50个中文），其中68%的任务涉及多模态输入。每个任务平均有2.24个用户文件，最多6个。沙箱语料库在512k配置下平均包含465.5个网页。数据集结构包括用户提供的多模态文件和查询JSONL文件，查询文件包含任务ID、自然语言研究查询和用户文件列表。评估涵盖五个维度：信息检索（信息召回和引用覆盖）和报告生成（事实准确性、指令遵循和深度质量）。

创建时间：

2026-03-11

5,000+

优质数据集

54 个

任务类型

进入经典数据集