DRBench
收藏arXiv2025-10-01 更新2025-11-20 收录
下载链接:
https://github.com/ServiceNow/drbench
下载链接
链接失效反馈官方服务:
资源简介:
DRBench是一个用于评估在复杂、开放式深度研究任务中AI代理性能的基准。与专注于简单问题或仅网络查询的先前基准不同,DRBench评估代理在多步查询方面的能力,例如,“我们应该对我们的产品路线图做出哪些改变以确保符合这个标准?”,这需要从公共网络和私有公司知识库中识别支持事实。每个任务都以现实用户的角色和公司环境为依据,跨越包括生产力软件、云文件系统、电子邮件、聊天对话和开放网络在内的异构搜索空间。任务是通过精心设计的合成管道生成的,并经过人类在环验证,代理的评估标准包括其回忆相关见解的能力、保持事实准确性和产生连贯、结构良好的报告的能力。DRBench发布了15个深度研究任务,涵盖10个领域,如销售、网络安全和合规性。通过评估各种DR代理和DR策略,展示了DRBench的有效性,这些代理和策略包括开源和闭源模型(如GPT、Llama和Qwen)。
DRBench is a benchmark for evaluating the performance of AI Agents in complex, open-ended deep research tasks. Unlike prior benchmarks that focus on simple questions or solely on web queries, DRBench evaluates the capabilities of AI Agents in handling multi-step queries—for example, "What changes should we make to our product roadmap to ensure compliance with this standard?"—which requires identifying supporting facts from both the public web and private corporate knowledge bases. Each task is grounded in realistic user roles and corporate environments, spanning heterogeneous search spaces including productivity software, cloud file systems, email, chat conversations, and the open web. The tasks are generated via carefully designed synthetic pipelines and validated via human-in-the-loop validation. The evaluation criteria for AI Agents include their ability to recall relevant insights, maintain factual accuracy, and produce coherent, well-structured reports. DRBench includes 15 deep research tasks spanning 10 domains such as sales, cybersecurity, and compliance. Experiments evaluating various DR Agents and DR strategies—including both open-source and closed-source models such as GPT, Llama, and Qwen—have demonstrated the effectiveness of DRBench.
提供机构:
ServiceNow Research, University of British Columbia, Mila – Quebec AI Institute, McGill University, Canada CIFAR AI Chair
创建时间:
2025-10-01
搜集汇总
数据集介绍
构建方式
DRBench采用五阶段合成流水线构建企业深度研究任务,融合大规模语言模型生成与人工循环验证机制。第一阶段生成企业档案与用户画像作为任务背景,第二阶段从权威行业报告中提取时效稳定的公共洞察,第三阶段基于上下文生成开放式研究问题,第四阶段创建企业专属的内部洞察与干扰性信息,第五阶段将洞察嵌入多模态文件中并填充真实但无关的内容。该流程通过人工专家审核确保任务真实性与语义一致性,最终形成涵盖10个业务领域的15个复杂研究任务。
使用方法
使用DRBench需通过其容器化企业环境加载任务配置,智能体可经由程序化API或网页界面访问Nextcloud文档库、Mattermost聊天系统等仿真应用。研究流程始于深度问题的结构化分解,通过优先级驱动的动作规划迭代执行信息检索与分析,自适应研究循环动态填补知识缺口。最终报告生成阶段需严格遵循引用规范,确保所有主张均溯源至企业文件或公共数据。评估脚本自动计算三维度指标,支持对不同架构智能体在复杂研究场景中的能力进行可复现对比。
背景与挑战
背景概述
DRBench数据集由ServiceNow Research联合多所高校于2025年提出,旨在构建面向企业深度研究任务的人工智能代理评估基准。该数据集聚焦复杂开放型研究场景,通过模拟真实企业环境中的多源数据交互,填补了传统基准在跨平台信息整合与战略决策支持方面的空白。其创新性体现在将公开网络资源与私有企业知识库相结合,覆盖销售、网络安全等十大领域,推动了企业级AI代理从基础检索向深度洞察的范式转变。
当前挑战
领域挑战在于企业深度研究需解决多模态信息融合与战略级问题解析的复杂性,例如从异构数据中提取关键洞察并生成可行动报告。构建挑战涉及真实企业环境的模拟,需在保持数据多样性的同时控制干扰因素,并通过人工循环验证确保任务场景的合理性与评估指标的鲁棒性。
常用场景
经典使用场景
在人工智能代理研究领域,DRBench作为首个专注于企业深度研究任务的基准测试平台,其经典应用场景体现在评估智能代理在复杂企业环境中的多步骤信息检索与合成能力。该数据集通过模拟真实企业工作流程,要求代理同时访问公共网络资源和私有企业知识库,完成如“如何调整产品路线图以确保符合特定标准”等开放式研究任务。这种设计使得研究者能够系统评估代理在异构搜索空间中的表现,涵盖生产力软件、云文件系统、电子邮件和聊天对话等多种数据格式。
解决学术问题
DRBench有效解决了传统基准测试在评估深度研究代理时的局限性问题。传统方法多聚焦于简单问答或纯网络查询,而该数据集通过引入企业上下文和用户角色,推动了对代理在真实场景下洞察力召回、事实准确性和报告质量的多维度评估。其创新性评估框架基于LLM-as-a-judge方法,建立了洞察召回与干扰避免、事实性和报告质量三大评分维度,为学术界提供了系统衡量代理在复杂信息环境中核心能力的方法论基础,显著推进了企业级人工智能代理的研究进程。
实际应用
在企业实践层面,DRBench直接服务于提升组织信息处理效率的实际需求。该数据集模拟的深度研究任务广泛应用于销售、网络安全和合规等十大企业领域,帮助企业评估智能代理在整合公共网络信息与内部私有数据方面的实际效能。通过构建包含Nextcloud云存储、Mattermost企业聊天和邮件系统等真实应用的环境,使企业能够量化评估代理在减少人工研究负担、提升决策质量方面的潜在价值,为人工智能技术在企业知识管理工作流中的落地应用提供了可靠的验证平台。
数据集最近研究
最新研究方向
在企业人工智能领域,DRBench作为首个专注于深度研究任务的基准测试,正引领多模态信息整合与复杂推理的前沿探索。该数据集通过模拟真实企业环境中的异构数据源(如云端存储、内部聊天记录和公开网页),推动智能代理在开放式查询中的表现评估。研究热点集中于提升代理的洞察召回能力与事实准确性,尤其在跨应用工作流和隐私敏感任务中,DRBench为比较开源与闭源模型(如GPT、Llama和Qwen)提供了标准化平台,显著加速了企业级AI代理在合规、销售等关键领域的实用化进程。
相关研究论文
- 1通过ServiceNow Research, University of British Columbia, Mila – Quebec AI Institute, McGill University, Canada CIFAR AI Chair · 2025年
以上内容由遇见数据集搜集并总结生成



