BrowseComp-Plus

Name: BrowseComp-Plus
Creator: University of Waterloo, CSIRO, Independent, Carnegie Mellon University, The University of Queensland
Published: 2025-08-09 01:55:11
License: 暂无描述

arXiv2025-08-09 更新2025-08-13 收录

下载链接：

http://comp-PIus

下载链接

链接失效反馈

官方服务：

资源简介：

BrowseComp-Plus是一个由人类验证的文档集合，包括支持和挑战性的负面文档，旨在为深度研究代理提供一个公平和透明的评估基准。这个数据集扩展了原始的BrowseComp数据集，提供了固定的、精心策划的文档语料库，每个查询都包括经过人类验证的支持性文档和挖掘出的具有挑战性的负面文档。这个数据集允许研究人员独立评估检索和LLM组件，从而促进对每个组件对最终答案质量的影响的详细分析。此外，通过消除对动态网络API的依赖，BrowseComp-Plus显著降低了成本，提高了可重复性，并提高了基准测试的总体鲁棒性。

提供机构：

University of Waterloo, CSIRO, Independent, Carnegie Mellon University, The University of Queensland

创建时间：

2025-08-09

搜集汇总

数据集介绍

构建方式

BrowseComp-Plus数据集的构建采用了严谨的两阶段流程，首先通过OpenAI o3模型自动化挖掘证据文档并生成结构化表格，随后由14名标注员进行400余小时的人工验证，确保每项证据与问题线索的精确匹配。针对原始BrowseComp中1,266个复杂问题，剔除124个无法获取证据的样本后，通过Selenium和Trafilatura工具抓取1,142个URL内容，最终保留830个经严格验证的问题-答案对。为增强检索挑战性，团队利用GPT-4o分解原始问题生成子查询，通过Google Search API采集10万份干扰文档，构建平均每问含6.1份证据文档和76.28份负例的平衡语料库。

特点

该数据集的核心价值在于其固定且透明的评估框架：所有查询均锚定于人工验证的文档集合，包含支持性证据和精心挖掘的困难负例，支持对检索组件与语言模型代理的独立评估。语料库规模控制在10万文档，既保证计算效率又维持足够的检索难度，平均文档长度5,179词的设计有效模拟真实网页复杂度。特别设计的黄金文档标注突破传统字符串匹配局限，涵盖语义隐含的答案形式，如作者个人页面虽未明确提及出版物数量但逻辑包含答案的情况，为评估体系注入语义理解维度。

使用方法

使用BrowseComp-Plus时，研究者可通过标准Cranfield范式评估检索模型在证据文档和黄金文档上的Recall@k/nDCG@k指标，同时支持端到端深度研究代理的评估。基准测试提供四类指标：基于GPT-4.1裁判的准确率、检索证据召回率、搜索调用次数及校准误差。实验配置推荐采用Pyserini工具包服务BM25检索器，Tevatron工具包服务Qwen3-Embedding等稠密检索模型，默认截取文档前512token以平衡成本与覆盖率（满足86.5%查询的答案包含需求）。高级用法支持扩展完整文档阅读工具，如GPT-4.1结合该工具可使准确率提升8.19个百分点。

背景与挑战

背景概述

BrowseComp-Plus是由滑铁卢大学、CSIRO、卡内基梅隆大学等机构的研究团队于2025年提出的深度研究智能体评估基准。该数据集基于BrowseComp基准构建，通过提供固定且经过人工验证的文档语料库，解决了现有评估方法依赖动态网络API导致的公平性和可复现性问题。作为首个支持检索组件与语言模型组件分离评估的基准，BrowseComp-Plus包含830个复杂推理查询，每个查询配备6.1个支持文档和76.28个困难负样本，显著推动了深度研究智能体在检索增强生成、多轮推理等方向的研究进展。

当前挑战

BrowseComp-Plus主要应对两大核心挑战：在领域问题层面，它致力于解决复杂多跳推理查询中检索系统与语言模型协同效能的精准评估难题，现有检索模型对推理密集型查询的召回率仍不足18.5%；在构建过程中，研究团队需克服证据文档覆盖率（确保完整推理链）、检索难度（设计高质量负样本）与语料规模（平衡计算成本与研究需求）的三重矛盾，最终通过两阶段人工验证流程和GPT-4o辅助的负样本挖掘策略，构建了包含100k文档的高质量语料库。

常用场景

经典使用场景

BrowseComp-Plus数据集作为深度研究代理（Deep-Research Agents）的评估基准，主要用于测试大型语言模型（LLMs）与检索工具结合后处理复杂查询的能力。该数据集通过固定且经过人工验证的文档集合，支持多轮检索与推理任务的评估，特别适用于需要迭代搜索规划和结果分析的场景。研究人员可利用其构建的830个查询及配套的10万文档，系统分析检索组件与语言模型代理的独立贡献。

实际应用

该数据集的实际应用包括优化商业搜索引擎与LLM的协同工作流程。例如，通过分析不同检索器（如BM25与神经检索模型）在固定文档集上的表现，可指导实际系统中检索组件的选型。此外，其标注的困难负例文档可用于训练更鲁棒的检索模型，而查询分解技术（如GPT-4o生成的子查询）可直接应用于增强复杂问答系统的搜索策略。

衍生相关工作

BrowseComp-Plus衍生出多个重要研究方向：基于其构建的检索-代理交互分析框架催生了Search-R1等强化学习驱动的搜索代理；在检索领域，ReasonIR等针对推理任务优化的稠密检索模型通过该数据集验证了性能。此外，其多语言扩展（如ZH-BrowseComp）和垂直领域适配（如MedBrowseComp）进一步推动了跨语言与专业场景的深度研究评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集