five

BrowseComp-Plus

收藏
github2025-08-11 更新2025-08-12 收录
下载链接:
https://github.com/texttron/BrowseComp-Plus
下载链接
链接失效反馈
官方服务:
资源简介:
BrowseComp-Plus是一个新的基准测试,用于评估深度研究系统,通过隔离检索器和LLM代理的影响,实现深度研究代理的公平、透明和可重复比较。该基准测试从OpenAI的BrowseComp获取具有挑战性、需要推理的查询,但不同于搜索实时网络,BrowseComp-Plus针对一个固定的、精选的约10万份网络文档进行评估。这些文档包括足够回答查询的人类验证证据文档,以及挖掘的困难负面样本以保持任务的挑战性。

BrowseComp-Plus is a novel benchmark for evaluating deep research systems, enabling fair, transparent, and reproducible comparisons of deep research agents by isolating the impacts of retrievers and LLM agents. This benchmark derives challenging, reasoning-intensive queries from OpenAI's BrowseComp. Unlike real-time web search, however, BrowseComp-Plus conducts evaluations against a fixed, curated corpus of approximately 100,000 web documents. This corpus includes human-validated evidence documents sufficient to answer the queries, as well as mined hard negative samples to sustain the task's challenging nature.
创建时间:
2025-08-08
原始信息汇总

BrowseComp-Plus数据集概述

数据集简介

  • 目的:评估深度研究系统,隔离检索器和LLM代理的影响,实现公平、透明和可重复的比较。
  • 来源:基于OpenAI的BrowseComp,包含具有挑战性、需要推理的查询。
  • 特点
    • 使用固定的、精选的约10万份网络文档作为语料库。
    • 包含人类验证的证据文档和挖掘的困难负样本。

数据集下载

  • 解密数据集: bash pip install datasets python scripts_build_index/decrypt_dataset.py --output data/browsecomp_plus_decrypted.jsonl --generate-tsv topics-qrels/queries.tsv

  • 语料库下载: python from datasets import load_dataset ds = load_dataset("Tevatron/browsecomp-plus-corpus", split="train")

安装与依赖

  • 环境管理工具uv(Python 3.10)
  • 依赖项
    • flash-attn(用于faiss)
    • Java 21(通过conda或apt安装)

使用指南

  • 预构建索引下载: bash bash scripts_build_index/download_indexes.sh

  • 复现实验结果:参考docs/目录中的指南。

  • 自定义检索器:参考docs/custom_retriever.md

评估

  • 结果格式: json { "query_id": str, "tool_call_counts": dict[str, int], "status": str, "retrieved_docids": list[str], "result": [{"type": "output_text", "output": str}] }

  • 评估脚本: bash python scripts_evaluation/evaluate_run.py --input_dir runs/my_model

提交到排行榜

  • 提交文件格式: json { "LLM": str, "Accuracy (%)": float, "Recall (%)": float, "avg_tool_stats": {"search": float}, "Calibration Error (%)": float, "Retriever": str, "Link": str, "Evaluation Date": str, "per_query_metrics": [...] }

  • 提交方式:发送至s42chen@uwaterloo.ca

检索专用评估

  • 评估命令: bash python -m pyserini.eval.trec_eval -c -m recall.5,100,1000 -m ndcg_cut.10 topics-qrels/qrel_evidence.txt {YOUR_TREC_RUN_FILE}

联系方式

搜集汇总
数据集介绍
main_image_url
构建方式
在深度研究系统评估领域,BrowseComp-Plus数据集通过精心设计的构建流程确立了新的基准。该数据集从OpenAI的BrowseComp中筛选出具有挑战性的推理密集型查询,并构建了一个包含约10万份网页文档的固定语料库。语料库不仅包含人工验证的证据文档以确保查询可解答,还引入了挖掘的困难负样本以维持任务难度。通过固定语料库的设计,研究人员能够完全控制检索过程,从而实现对不同检索器与LLM代理组合效果的标准化比较。
特点
BrowseComp-Plus数据集的核心价值在于其科学严谨的评估框架。该数据集通过划分证据文档与黄金文档两类标注,支持对检索系统进行多维度评估。独特的固定语料库设计消除了网络检索的不确定性,确保了实验的可重复性。数据集提供的预构建索引(包括BM25和Qwen3-Embedding)以及标准化的TREC评估接口,为研究者提供了即插即用的评估工具链。特别设计的JSON结果格式和自动化评估脚本,使得深度研究代理的端到端评估流程高度规范化。
使用方法
使用BrowseComp-Plus数据集需要遵循其模块化的工作流程。研究者可通过Hugging Face的datasets库直接加载解密的语料库数据,或运行提供的解密脚本获取查询和相关性判断。评估环节支持两种模式:对于完整的深度研究代理,需按照指定JSON格式提交包含工具调用记录和检索结果的运行目录;针对纯检索系统,则可采用标准TREC运行文件格式输出结果。数据集提供的Python评估脚本能够自动计算包括准确率、召回率和nDCG在内的多维度指标,并生成符合排行榜提交要求的标准化报告。
背景与挑战
背景概述
BrowseComp-Plus数据集由Tevatron团队开发,旨在为深度研究系统评估提供新的基准测试工具。该数据集基于OpenAI的BrowseComp构建,通过固定约10万份网络文档的精选语料库,解决了动态网络检索带来的不可控性问题。其核心研究目标在于分离检索器与大型语言模型代理的影响,实现深度研究代理的公平、透明和可复现比较。数据集包含人工验证的证据文档和精心筛选的困难负样本,显著提升了复杂推理查询的评估效度。这一创新设计为信息检索与自然语言处理的交叉研究提供了标准化实验环境,对推动深度研究系统的方法论发展具有重要价值。
当前挑战
BrowseComp-Plus面临的核心挑战主要体现在两个方面:在领域问题层面,深度研究系统需要处理复杂推理查询与海量文档间的精准匹配,这对检索器的召回精度和语言模型的推理能力提出了双重考验;在构建技术层面,数据集需平衡固定语料库的覆盖广度与动态网络的信息时效性,同时确保困难负样本的构造既能反映真实检索场景的挑战,又不会引入评估偏差。此外,保持评估过程中检索设置的一致性,以及跨不同语言模型代理的性能可比性,都是构建过程中需要攻克的技术难点。
常用场景
经典使用场景
在深度研究系统的评估领域,BrowseComp-Plus数据集通过固定检索语料库的设计,为研究者提供了一个标准化的测试平台。该数据集特别适用于评估检索器与大型语言模型代理的协同效能,其经典使用场景包括对比不同检索算法在相同语料下的表现,以及分析语言模型在固定证据文档条件下的推理能力。这种设置有效消除了网络实时搜索带来的变量干扰,使得实验结果更具可比性和可重复性。
衍生相关工作
基于BrowseComp-Plus的评估框架,学术界已衍生出多个创新研究方向。包括检索器与LLM的协同优化算法、基于困难负样本的对比学习策略,以及多阶段检索-重排序-生成的端到端系统设计。该数据集还催生了新型评估指标的研究,如证据文档覆盖率和答案可追溯性分析,这些工作显著推动了深度研究系统评估方法论的发展。
数据集最近研究
最新研究方向
在信息检索与自然语言处理交叉领域,BrowseComp-Plus数据集正推动深度研究智能体的评估范式革新。该数据集通过固定约10万份网络文档的检索语料库,解决了传统动态网络检索中不可复现性的核心痛点,为比较不同检索器与大语言模型代理的组合效果提供了标准化测试平台。近期研究聚焦于三个维度:基于检索增强生成(RAG)框架的端到端系统优化,特别是在多跳推理场景下的负样本挖掘策略;探索检索器与不同规模LLM(如GPT-4、Claude、Gemini等)的协同效应;开发新型评估指标以量化系统在证据召回率、答案准确性和工具调用效率等方面的表现。该数据集的推出恰逢行业对可信AI的迫切需求,其设计的可解释性评估机制为缓解大模型幻觉问题提供了重要方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作