LIVEDRBENCH

Name: LIVEDRBENCH
Creator: 微软研究院印度班加罗尔
Published: 2025-08-06 16:09:28
License: 暂无描述

arXiv2025-08-06 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/microsoft/LiveDRBench

下载链接

链接失效反馈

官方服务：

资源简介：

LIVEDRBENCH是一个包含100个具有挑战性的科学主题和公共事件查询的数据集，旨在评估深度研究（DR）系统的性能。数据集涵盖科学发现、材料发现、先验艺术搜索等科学主题，以及航班事故、电影奖项等公共事件。数据集的创建过程涉及将任务分解为两个子任务：合成能够回答用户查询的必要声明，以及根据这些声明撰写报告。数据集的应用领域是评估深度研究系统的性能，旨在解决信息合成和长篇报告生成的问题。

LIVEDRBENCH is a dataset containing 100 challenging scientific-themed and public event queries, designed to evaluate the performance of deep research (DR) systems. The dataset covers scientific topics such as scientific discovery, materials discovery, and prior art search, as well as public events including flight accidents and film awards. The creation of this dataset involves decomposing tasks into two subtasks: synthesizing the necessary statements capable of answering user queries, and writing reports based on these statements. Its application targets evaluating the performance of deep research systems, aiming to address the challenges of information synthesis and long-form report generation.

提供机构：

微软研究院印度班加罗尔

创建时间：

2025-08-06

原始信息汇总

LiveDRBench数据集概述

数据集基本信息

许可证: CDLA-Permissive-2.0
任务类别: 问答
语言: 英语
标签: deepresearch
规模: 小于1K样本

数据集配置

预览版(preview)
- 测试集: 10个样本
- 特征:
  - category (string)
  - key (int64)
  - question (string)
  - ground_truths (string)
  - misc (string)
- 下载大小: 19.8KB
- 数据集大小: 17.4KB
完整版(v1-full)
- 测试集: 100个样本
- 特征:
  - category (string)
  - key (int64)
  - question (string)
  - ground_truths (string)
  - misc (string)
  - canary (string)
- 下载大小: 129.3KB
- 数据集大小: 206.1KB

数据集详情

目的: 评估深度研究(DR)系统的性能
任务数量: 100个挑战性DR任务
收集时间: 2025年5-6月
任务组成:
- 提示(任务描述和预期输出格式)
- 包含声明和参考文献的ground-truth JSON
评估指标: 精确度、召回率、F1分数

类别

SciFacts-Geo
SciFacts-Materials
NovelDatasets identification
NovelDatasets identification and extraction
NovelDatasets peer retrieval
PriorArt search
Entities
Flight incidents

使用方式

python from datasets import load_dataset livedrbench = load_dataset("microsoft/LiveDRBench", "v1-full")[test]

评估要求

预测文件需包含:
- key (唯一标识符)
- preds (预测结果列表)

适用场景

研究社区复现结果
促进深度研究领域进一步发展

不适用场景

训练新的深度研究模型
商业或真实世界应用
高度监管领域

数据创建方法

问题反转过程
基于现有推理问题创建新实例
问题精炼以确保唯一答案
更新ground-truth参考文献

最佳实践

建议使用支持负责任AI缓解措施的LLM
用户需确保符合数据保护法规

引用格式

bibtex @inproceedings{livedrbench2025, title={Characterizing Deep Research: A Benchmark and Formal Definition}, author={Java, Abhinav and Khandelwal, Ashmit and Midigeshi, Sukruta and Halfaker, Aaron and Deshpande, Amit and Goyal, Navin and Gupta, Ankur and Natarajan, Nagarajan and Sharma, Amit}, booktitle={arXiv preprint arXiv:2508.04183}, year={2025} }

联系方式

GitHub问题提交
邮箱: amshar@microsoft.com

搜集汇总

数据集介绍

构建方式

LIVEDRBENCH数据集的构建基于对深度研究任务的严格定义，通过问题反转技术从现有的科学文献和公共事件中提取关键信息，形成具有挑战性的查询任务。具体而言，该数据集包含100个任务，涵盖科学事实、数据集识别、先验艺术搜索、飞行事件和实体枚举等多个领域。每个任务的设计都确保其无法通过单一网页或少量信息源直接回答，从而要求模型进行广泛的搜索和复杂的推理。数据集的构建过程还包括手动验证和扩展基准答案，以确保评估的客观性和全面性。

特点

LIVEDRBENCH数据集的特点在于其多样性和挑战性，覆盖了科学研究和公共事件两大领域，任务类型从多跳推理到信息综合不等。数据集通过中间输出表示（即关键主张的结构化列表）来分离推理挑战与表面报告生成，从而实现对深度研究系统的客观评估。此外，该数据集支持定期更新，以适应网络内容的变化和新模型的发布，确保其长期有效性。

使用方法

使用LIVEDRBENCH数据集时，研究人员可以通过输入查询任务并接收模型生成的中间主张列表来评估深度研究系统的性能。评估过程采用改进的精确度和召回率指标，这些指标不仅考虑主张的正确性，还检查其子主张的支持证据。数据集提供了详细的评估提示和自动化脚本，支持对模型输出的结构化解析和评分。此外，研究人员还可以通过分析模型的推理轨迹（如回溯和分支事件）来深入理解其搜索机制和推理效率。

背景与挑战

背景概述

LIVEDRBENCH是由微软研究院Bengaluru团队于2025年提出的深度研究（Deep Research, DR）评估基准，旨在解决复杂信息任务中搜索与推理的量化难题。该数据集通过形式化定义DR任务特征——高概念发散性（high fan-out）和强推理强度，构建了包含科学议题与公共事件的100项挑战性任务，其创新性地采用中间声明（intermediate claims）表征来分离推理过程与报告生成，为AI系统在文献综述、专利检索等需多源信息整合的场景提供了标准化评估框架。研究团队通过问题反转技术（problem inversion）从现有推理数据集中生成独特查询，确保任务无法通过单一网页检索解决，显著推动了智能代理在知识发现领域的评估方法论发展。

当前挑战

LIVEDRBENCH面临的核心挑战体现在任务设计和技术实现两个维度：1) 领域问题层面，需平衡查询的开放性与答案唯一性，例如在材料发现任务中，系统需同时准确识别材料名称及其支撑文献，任何子声明错误将导致整体失效；2) 构建过程中，需动态适应互联网内容更新以避免评估失效，如通过定期添加新型科学问题来维持基准时效性。当前最优模型（OpenAI DR）在部分子类别F1分数仅0.02-0.72的表现，揭示了现有系统在长链推理、回溯修正和分支控制等核心能力上的显著不足。

常用场景

经典使用场景

LIVEDRBENCH数据集作为深度研究（Deep Research, DR）任务的基准测试集，其经典使用场景聚焦于评估AI系统在复杂信息检索与多步推理任务中的表现。该数据集通过构建科学文献查询（如材料属性匹配、地理空间数据集溯源）和公共事件分析（如航班事故调查）等任务，模拟人类专家需耗时超过10分钟的高搜索强度（需处理20+信息单元）与高推理强度（需非平凡逻辑组合）的研究过程。例如，在“寻找满足特定能带隙和晶格常数的材料”任务中，模型需跨多篇论文检索并验证属性关联性，体现了DR任务的核心挑战。

实际应用

该数据集的实际应用覆盖科研辅助与公共信息服务两大领域。在科研场景中，研究者可利用其评估系统快速定位符合特定属性的材料文献（如“3.37eV直接带隙材料”），或验证技术原创性（如“GPT-4生成语料库的价值维度分析”）。在公共领域，支持对复杂事件的深度调查（如“多次复飞后安全降落的航班事故”），其结构化输出格式可直接集成至政策分析或新闻核查流程。微软Copilot等商业DR系统已采用类似基准优化其搜索机制与证据链生成能力。

衍生相关工作

LIVEDRBENCH的评估范式催生了多项DR系统创新，如OpenAI基于声明树的递归评估改进了搜索回溯策略，而HuggingFace的开源框架DeerFlow则借鉴其分支效率指标优化多线程检索。学术上，该数据集启发了DeepResearchGym等可复现评测环境，以及《Deep Research Agents: A Systematic Examination》等综述对DR任务分类的细化。其“问题反转”构建方法（如将CURIE长文本理解任务转化为材料检索任务）更成为后续基准（如GAIA 2.0）的设计模板。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集