EDR-200

Name: EDR-200
Creator: Salesforce
Published: 2025-10-22 01:18:14
License: 暂无描述

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/Salesforce/EDR-200

下载链接

链接失效反馈

官方服务：

资源简介：

EDR-200数据集包含201个由Enterprise Deep Research生成的完整研究轨迹，展示了搜索、反思和综合的完整推理过程。每个轨迹包括查询、迭代次数、工具调用序列、最终报告和来源基准。

提供机构：

Salesforce

创建时间：

2025-10-14

原始信息汇总

EDR-200数据集概述

基本信息

许可证: CC-BY-NC-4.0
任务类别: 问答、文本生成
语言: 英语
规模类别: n<1K
标签: 研究、多智能体、深度研究、智能体轨迹

数据集描述

EDR-200包含201个完整的企业深度研究智能体研究轨迹，其中99个查询来自DeepResearch Bench，102个查询来自DeepConsult。与仅捕获最终输出的先前基准不同，这些轨迹揭示了搜索、反思和合成步骤的完整推理过程，支持对智能体规划和决策动态的细粒度分析。

数据结构

每个轨迹包含以下字段：

query: 研究问题
num_loops: 执行的研究迭代次数
trajectory: 完整的工具调用和中间输出序列（JSON格式）
report: 最终的Markdown研究报告
benchmark: 来源基准（"DeepResearch Bench"或"Deep Consult"）

轨迹格式

轨迹包含多个迭代，每个迭代包含：

iteration: 迭代编号
num_tool_calls: 工具调用数量
tool_calls: 工具调用列表
running_report: 运行中报告
num_sources: 来源数量

工具类型

decompose_query: 将研究问题分解为子查询
general_search, academic_search等: 执行搜索并收集来源
generate_report: 将信息合成为结构化报告部分
reflect_on_report: 识别知识差距并确定后续步骤

数据集统计

指标	数值
总轨迹数	201
平均每轨迹迭代次数	7.19
平均每轨迹工具调用数	49.88
平均每迭代工具调用数	6.93
平均每轨迹搜索次数	28.30
平均报告长度	6,523词
平均每迭代报告增长	600词

使用说明

该发布仅用于支持学术论文的研究目的。模型、数据集和代码并非为所有下游目的专门设计或评估。强烈建议用户在部署此模型前评估并解决准确性、安全性和公平性方面的潜在问题。

引用

bibtex @article{prabhakar2025enterprisedeepresearch, title={Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics}, author={Prabhakar, Akshara and Ram, Roshan and Chen, Zixiang and Savarese, Silvio and Wang, Frank and Xiong, Caiming and Wang, Huan and Yao, Weiran}, journal={arXiv preprint arXiv:2510.17797}, year={2025} }

搜集汇总

数据集介绍

构建方式

在智能体研究领域，EDR-200数据集通过企业级深度研究框架生成，收录了201条完整的研究轨迹。这些轨迹源自两大基准测试平台——DeepResearch Bench的99条查询与DeepConsult的102条查询，采用多智能体协同机制，完整记录了从查询分解、文献检索到报告生成的动态过程。数据以标准化JSON结构存储工具调用序列与中间结果，实现了对智能体决策链条的透明化呈现。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用预置的轨迹解析接口还原智能体决策过程。每条轨迹包含查询语句、迭代次数、工具调用序列及最终报告等结构化字段，支持对多智能体协作模式的定量分析。该数据集适用于智能体规划算法评估、工具使用策略优化等研究方向，但需注意其生成过程依赖Gemini模型，不得用于开发与谷歌竞争的模型系统。

背景与挑战

背景概述

企业深度研究领域正面临复杂信息环境下的智能决策需求，EDR-200数据集由Salesforce AI Research于2025年构建，旨在推进多智能体系统的深度研究能力。该数据集收录了201条完整的研究轨迹，涵盖DeepResearch Bench与DeepConsult两大基准的查询任务，通过完整记录搜索、反思与合成的推理链条，为分析智能体规划决策机制提供了前所未有的细粒度视角。其创新性在于突破了传统基准仅关注最终输出的局限，通过轨迹数据揭示了动态研究过程中的认知演进规律，对增强企业级分析系统的可解释性与可控性具有重要价值。

当前挑战

在企业智能研究领域，核心挑战在于如何协调多智能体系统完成从问题拆解到知识合成的全流程决策。EDR-200构建过程中需解决轨迹数据的结构化标注难题，包括工具调用序列的标准化记录、跨迭代知识状态的连续性保持，以及海量中间产物的质量验证。这些技术难点直接关系到对智能体反思机制、搜索策略等认知行为的有效建模，也为后续研究提出了轨迹表示学习、决策路径优化等前沿课题。

常用场景

经典使用场景

在智能体系统研究领域，EDR-200数据集通过完整记录多智能体在研究任务中的搜索、反思与合成轨迹，为分析智能体决策动态提供了珍贵样本。该数据集常被用于构建可解释的智能体行为评估框架，研究者通过解析工具调用序列与中间输出，能够精确量化智能体在复杂信息处理过程中的推理质量与策略有效性。

解决学术问题

该数据集突破了传统基准仅评估最终输出的局限，通过揭示智能体在迭代研究中的完整推理链条，解决了智能体规划透明度与决策可解释性的核心学术难题。其轨迹数据为研究多智能体协作中的知识积累机制、动态目标调整策略以及自我反思能力提供了实证基础，显著推进了认知架构与自主决策系统的理论发展。

实际应用

在企业分析场景中，该数据集支撑了智能研究助手的开发，能够自动完成市场趋势分析、竞争情报收集等复杂调研任务。通过模拟人类研究员的渐进式探索过程，此类系统可生成结构完整、引用详实的研究报告，为战略决策提供数据支撑，同时降低了传统人工调研的时间与经济成本。

数据集最近研究