LiveResearchBench

github2025-11-14 更新2025-11-15 收录

下载链接：

https://github.com/SalesforceAIResearch/LiveResearchBench

下载链接

链接失效反馈

官方服务：

资源简介：

LiveResearchBench是一个包含100个专家策划任务的基准数据集，涵盖日常生活、企业和学术领域，每个任务都需要广泛的动态实时网络搜索和跨领域信息综合。该数据集基于四项核心原则构建：用户中心性、动态性、明确性和多面性，要求对数百个实时网络源进行搜索和深入分析。数据集经过1500多小时的人工劳动构建，为系统评估提供了严格基础。

LiveResearchBench is a benchmark dataset containing 100 expert-curated tasks spanning daily life, corporate and academic domains. Each task requires extensive dynamic real-time web searching and cross-domain information synthesis. This dataset is built upon four core principles: user-centricity, dynamics, clarity and multi-facetedness, demanding searches and in-depth analysis across hundreds of real-time web sources. It has been constructed with over 1,500 hours of manual labor, providing a rigorous foundation for systematic evaluation.

创建时间：

2025-10-18

原始信息汇总

LiveResearchBench 数据集概述

数据集基本信息

名称：LiveResearchBench
类型：深度研究基准数据集
规模：100个专家策划任务
数据来源：真实世界任务（日常生活、企业、学术领域）
许可证：CC-BY-NC 4.0（仅限研究用途）

核心特点

用户中心性：反映真实信息需求
动态性：需要最新信息，超越参数化知识
明确性：确保用户间一致解释
多面性：需要大量网络源搜索和深度分析

任务领域分布

日常生活
企业应用
学术研究

数据集内容

100个专家策划任务
超过1,500小时人工标注
需要实时网络搜索、多源推理和跨领域综合
支持引用基础的长篇报告生成

评估框架

DeepEval 评估套件包含以下维度：

呈现与组织（基于清单）
事实与逻辑一致性（逐点累加）
覆盖与全面性（基于清单）
分析深度（成对比较）
引用关联（逐点累加）

获取方式

Hugging Face：https://huggingface.co/datasets/Salesforce/LiveResearchBench
论文：https://arxiv.org/abs/2510.14240
项目页面：https://livedeepresearch.github.io/

技术细节

支持多模型评估（GPT-5、Gemini-2.5-Pro等）
提供预处理和批量评估工具
支持中断恢复和进度监控
输出详细评分和汇总统计

使用限制

仅限研究用途
不得用于开发与OpenAI竞争的模型

搜集汇总

数据集介绍

构建方式

在深度研究智能体评估领域，LiveResearchBench通过专家精心策划的方式构建了100个覆盖日常生活、企业场景与学术研究的真实任务。该数据集凝聚了超过1500小时的人工标注投入，每个任务均设计为需要实时网络搜索、多源信息推理及跨领域知识融合的复杂场景。构建过程严格遵循用户中心性、动态性、明确性与多维度分析四大原则，确保任务既反映真实信息需求，又具备可重复验证的评估标准。

特点

LiveResearchBench的突出特点在于其动态性与综合性。数据集涵盖的任务均依赖实时网络信息更新，突破了传统静态数据集的局限性。每个任务要求生成带有引证的长篇研究报告，涉及数百个网络资源的检索与整合。评估框架DeepEval采用多维度指标，包括内容覆盖度、报告呈现质量、引证准确性、逻辑一致性及分析深度，并通过四种互补的评估协议确保结果与人类判断高度一致。

使用方法

使用该数据集时，研究者需通过预处理脚本将模型输出的研究报告转换为结构化JSON索引。评估阶段支持单文件或批量处理模式，可灵活选择呈现质量、一致性、引证关联等评估维度。系统提供多模型并行评估能力，支持GPT-5与Gemini等前沿模型的交叉验证，并具备自动断点续传功能。评估结果以分层结构输出，包含模型级统计摘要与详细评分依据，为深度研究系统的迭代优化提供全面参考。

背景与挑战

背景概述

随着人工智能系统在复杂信息处理任务中的深入应用，深度研究能力成为评估智能代理系统的重要维度。LiveResearchBench由Salesforce研究团队于2025年10月正式发布，旨在构建一个动态实时的深度研究基准测试平台。该数据集通过1500小时人工标注，精心设计了涵盖日常生活、企业决策与学术研究三大领域的100个专业任务，其核心研究问题聚焦于如何评估智能系统在实时网络搜索、多源信息推理与跨领域知识整合方面的综合能力。该基准测试的建立为深度研究系统的标准化评估提供了重要基础设施，推动了智能代理系统在真实场景中的应用发展。

当前挑战

在解决深度研究任务评估这一核心问题时，LiveResearchBench面临多重挑战：首先需要克服传统基准测试在动态信息获取与多维度评估方面的局限性，确保任务设计兼具用户中心性与时效性特征；其次在构建过程中需处理大规模实时网络数据的采集与标注难题，包括保证信息来源的多样性与标注质量的一致性。此外，评估框架DeepEval的开发还需解决长文本报告的多维度质量量化问题，特别是在引文关联性与分析深度等主观维度的可靠评估方法上存在显著技术挑战。

常用场景

经典使用场景

在智能代理系统研究领域，LiveResearchBench作为动态评估基准，其经典应用体现在对深度研究代理的端到端能力验证。该数据集通过覆盖日常生活、企业决策与学术探索三大领域的专家级任务，模拟真实用户需求场景，要求系统执行实时网络检索、多源信息推理与跨领域知识融合。研究者可借助其构建的100项动态任务，系统评估代理在长篇幅研究报告生成过程中的信息整合效率与逻辑连贯性，为智能代理的认知深度提供标准化测试环境。

解决学术问题

该数据集有效解决了开放域智能系统研究中长期存在的评估维度单一化问题。传统基准常受限于静态知识库或模糊任务定义，难以衡量系统在动态环境中的持续学习能力。LiveResearchBench通过引入用户中心性、动态实时性、任务明确性及多维度评估四重原则，构建了覆盖内容覆盖度、报告呈现质量、引用准确性、逻辑一致性与分析深度的综合评估体系。其配套的DeepEval框架采用四种互补协议，显著提升了自动评估与人类判断的一致性，为深度研究系统的能力边界划定提供理论支撑。

衍生相关工作

基于该数据集衍生的经典研究聚焦于多模态评估方法与混合代理架构的创新。已有工作探索将DeepEval的检查表协议与点式评估相结合，构建了面向长文本质量的多粒度评判体系；另有研究受其动态检索机制启发，开发了具备实时知识更新的混合代理框架，通过协调专用检索模块与生成模块提升系统鲁棒性。这些工作进一步拓展了数据集的边界，推动了基于人类反馈的强化学习、多智能体协作等方向的发展，形成持续演进的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集