five

DR3-Eval

收藏
Hugging Face2026-03-16 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/NJU-LINK/DR3-Eval
下载链接
链接失效反馈
官方服务:
资源简介:
DR³-Eval 是一个用于深度研究代理评估的现实、可复现、多模态基准测试,专注于多文件报告生成任务。该数据集通过真实用户提供的多模态文件构建任务,涵盖3个主要领域和13个子领域。每个任务都包含一个独立的静态研究沙箱,其中包含支持性、分散性和噪声性文档。查询通过反向工程从已验证的证据文档中生成,消除了评估歧义。数据集包含100个独立任务(50个英文和50个中文),其中68%的任务涉及多模态输入。每个任务平均有2.24个用户文件,最多6个。沙箱语料库在512k配置下平均包含465.5个网页。数据集结构包括用户提供的多模态文件和查询JSONL文件,查询文件包含任务ID、自然语言研究查询和用户文件列表。评估涵盖五个维度:信息检索(信息召回和引用覆盖)和报告生成(事实准确性、指令遵循和深度质量)。
创建时间:
2026-03-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作