LiveDRBench

github2025-08-08 更新2025-08-15 收录

下载链接：

https://github.com/microsoft/livedrbench

下载链接

链接失效反馈

官方服务：

资源简介：

该基准测试包含100个具有挑战性的深度研究任务，涵盖科学主题和公共兴趣事件。数据收集于2025年5月至6月。每个任务包括一个提示和包含应发现的声明和参考文献的地面真实JSON。基准测试包含八个类别：SciFacts-Geo、SciFacts-Materials、NovelDatasets identification、NovelDatasets identification and extraction、NovelDatasets peer retrieval、PriorArt search、Entities和Flight incidents。

This benchmark comprises 100 challenging in-depth research tasks covering scientific topics and public interest events. The data was collected between May and June 2025. Each task consists of a prompt and a ground-truth JSON containing the claims and reference materials to be discovered. The benchmark includes eight categories: SciFacts-Geo, SciFacts-Materials, NovelDatasets identification, NovelDatasets identification and extraction, NovelDatasets peer retrieval, PriorArt search, Entities, and Flight incidents.

创建时间：

2025-07-25

原始信息汇总

LiveDRBench数据集概述

数据集简介

名称：LiveDRBench
目的：评估深度研究(DR)系统的性能，通过中间输出表示形式编码搜索过程中发现的关键主张
论文：https://arxiv.org/abs/2508.04183
数据集地址：https://huggingface.co/datasets/microsoft/LiveDRBench
评估代码：https://github.com/microsoft/LiveDRBench

数据集详情

任务数量：100个具有挑战性的DR任务
任务类型：科学主题(如数据集发现、材料发现、新颖性搜索、现有技术发现)和公众关注事件(如奥斯卡奖)
数据收集时间：2025年5月至6月
更新计划：定期更新新任务

任务组成

提示：任务简短描述和预期输出格式
基准真值JSON：包含应发现的主张和参考文献

评估指标

精确度(precision)
召回率(recall)
F1分数

类别划分

SciFacts-Geo
SciFacts-Materials
NovelDatasets identification
NovelDatasets identification and extraction
NovelDatasets peer retrieval
PriorArt search
Entities
Flight incidents

使用方法

加载数据集

python from datasets import load_dataset livedrbench = load_dataset("microsoft/LiveDRBench", "v1-full")[test]

评估预测

bash python src/evaluation.py --openai_api_key YOUR_API_KEY --preds_file path/to/your/predictions.json [--openai_model_name gpt-4o] [--num_threads 8] [--debug]

适用范围

加载基准测试和评估现有模型
研究社区用于结果复现和进一步研究

限制范围

不适合训练新的深度研究模型
不能代表所有类型的深度研究查询
不建议用于商业或现实应用
不适用于高度监管领域

数据创建

方法：问题反转过程
来源：基于Curie基准测试的科学论文数据(https://github.com/google/curie)
覆盖领域：材料科学、地理空间分析、计算机科学
覆盖事件：飞行事故、奥斯卡奖和奥运会

最佳实践

建议直接连接API密钥使用
不应作为DR模型性能的唯一衡量标准
推荐使用支持负责任AI缓解措施的LLM

许可

代码许可：MIT License
数据集许可：CDLA v2 license

引用

bibtex @inproceedings{livedrbench2025, title={Characterizing Deep Research: A Benchmark and Formal Definition}, author={Java, Abhinav and Khandelwal, Ashmit and Midigeshi, Sukruta and Halfaker, Aaron and Deshpande, Amit and Goyal, Navin and Gupta, Ankur and Natarajan, Nagarajan and Sharma, Amit}, booktitle={arXiv preprint arXiv:2508.04183}, year={2025} }

联系方式

问题反馈：Github提交issue
联系邮箱：amshar@microsoft.com

搜集汇总

数据集介绍

构建方式

LiveDRBench数据集的构建采用了创新的问题反转方法，通过将现有推理问题转化为新的搜索任务，确保每个问题具有唯一答案。该过程首先基于长文本或文档推理问题生成初始问题，随后通过添加属性约束使其答案唯一化，并更新相关参考文献。数据集涵盖科学发现和公共事件两大领域，所有数据均经过专业研究人员验证，确保其准确性和可靠性。

特点

LiveDRBench作为深度研究任务的评估基准，其核心特点在于将复杂的研究过程解构为可量化的关键主张发现任务。数据集包含100个跨学科挑战性任务，涵盖材料科学、地理空间分析等八个专业领域，每个任务均提供标准化提示文本和包含主张及参考文献的真实答案。通过信息检索指标实现客观评估，并采用加密答案机制防止测试集泄露，体现了严谨的学术设计理念。

使用方法

使用Hugging Face库可便捷加载LiveDRBench数据集，其标准化JSON格式支持高效评估。研究人员需通过专用脚本提交预测结果文件，系统将自动计算精确率、召回率和F1值等核心指标。评估过程支持多线程并行处理，并可选择不同的大语言模型作为评判标准。需要注意的是，该数据集仅适用于研究场景下的模型性能测试，不推荐直接用于实际应用或模型训练。

背景与挑战

背景概述

LiveDRBench是由微软研究院于2025年提出的一个创新性基准测试数据集，旨在推动深度研究（Deep Research, DR）领域的系统化评估。该数据集通过将复杂的科研过程解构为可量化的关键主张发现任务，为人工智能驱动的文献挖掘与知识发现建立了标准化评估框架。数据集涵盖科学事实验证、新材料发现、专利检索等八个核心研究类别，其独特的中间表征形式有效分离了深层推理与表面报告生成的评估维度，为知识密集型任务的算法研发提供了重要基准。

当前挑战

该数据集面临双重挑战：在领域问题层面，深度研究涉及跨文档推理、模糊语义匹配及新颖性判断等复杂认知任务，现有信息检索指标难以全面评估系统性能；在构建过程中，问题反转方法虽能生成多样化测试案例，但需平衡问题特异性与答案唯一性，且受限于原始科学数据集Curie的领域覆盖范围，在材料科学之外的其他学科代表性有待加强。数据加密机制虽防止测试集泄露，但也限制了其在模型训练中的应用潜力。

常用场景

经典使用场景

在科学研究领域，LiveDRBench数据集被广泛应用于评估深度研究系统的性能。其经典使用场景包括科学事实发现、新材料探索、新颖数据集识别以及先验艺术检索等任务。通过提供标准化的评估框架，该数据集使得研究人员能够客观比较不同模型在复杂信息检索和推理任务中的表现，特别是在需要从多源数据中提取关键主张的场景下。

衍生相关工作

围绕LiveDRBench数据集已衍生出多项重要研究工作，特别是在基于大语言模型的深度研究系统开发领域。该数据集的设计理念影响了后续多个科学信息处理基准的构建，其问题反转方法为类似Curie等科学问答数据集的改造提供了新思路。相关成果已推动信息检索与科学发现交叉领域的理论框架完善。

数据集最近研究