BrowseComp-V³

github2026-02-14 更新2026-02-15 收录

下载链接：

https://github.com/Halcyon-Zhang/BrowseComp-V3

下载链接

链接失效反馈

官方服务：

资源简介：

BrowseComp-V³是一个新颖的基准测试，包含300个精心手工制作的、跨多个领域的挑战性问题。通过强调深度、多层次和跨模态的多跳推理，确保这些任务需要使用网络浏览工具，而不能仅通过模型的参数知识解决。此外，所有支持证据的公开可搜索性被严格执行，并纳入了一个专家验证的、子目标驱动的过程评估机制，从而能够对搜索行为进行细粒度表征和能力边界的系统分析。

BrowseComp-V³ is a novel benchmark that comprises 300 meticulously hand-crafted challenging questions spanning multiple domains. By focusing on deep, multi-level and cross-modal multi-hop reasoning, all these tasks necessitate the employment of web browsing tools and cannot be solved solely relying on the model's parametric knowledge. Furthermore, the public searchability of all supporting evidence is strictly mandated, and an expert-validated, subgoal-driven procedural evaluation mechanism is integrated, thereby enabling fine-grained characterization of search behaviors and systematic analysis of the model's capability boundaries.

创建时间：

2026-02-10

原始信息汇总

BrowseComp-V³ 数据集概述

数据集基本信息

数据集名称: BrowseComp-V³
核心目标: 评估多模态浏览智能体在开放世界环境中的深度搜索能力。
提出背景: 现有基准在任务复杂性、信息可搜索性和评估维度上存在局限，阻碍了对多模态浏览智能体深度搜索能力的全面评估。
主要特点: 强调深度、多层次、跨模态的多跳推理，确保任务必须使用网络浏览工具，无法仅通过模型的参数知识解决。

数据集构成与规模

问题数量: 300个
问题特点: 精心手工制作、具有挑战性、覆盖多个领域。
证据要求: 严格确保所有支持证据的公开可搜索性。
评估机制: 采用专家验证的、子目标驱动的过程评估机制，支持对搜索行为的细粒度刻画和能力边界的系统分析。

数据格式与内容

规范格式: train.jsonl（每行一个JSON对象）。
记录字段:
- id
- category
- sub_category
- image
- image_paths (JSON字符串)
- encrypted_question
- encrypted_answer
- metadata (JSON字符串)
- sub_goals (JSON字符串)
图像存储: 位于数据集中的 data/images/ 目录下。

数据加密与解密

加密算法: AES-256-GCM (Galois/Counter Mode)
密钥派生: 基于口令的SHA-256哈希
解密口令: A_Visual_Vertical_Verifiable_Benchmark_for_Multimodal_Browsing_Agents
解密脚本: 提供了完整的解密流程脚本（如 decryption_script.py, decrypt_batch.py）和Python API。

评估与实验结果

评估框架: 提供了OmniSeeker，一个通用的多模态浏览智能体框架。
主要结果: 即使是最先进的模型（如GPT-5.2），准确率也仅为36%。
关键发现: 现有模型在多模态信息整合和细粒度感知方面存在关键瓶颈，本质上缺乏原生的多模态推理能力。

使用流程

下载数据: 从Hugging Face (https://huggingface.co/datasets/Halcyon-Zhang/BrowseComp-V3) 下载数据集。
解密数据: 使用提供的口令和脚本解密数据。
运行推理: 使用 run_rollout.py 脚本对解密后的样本进行推理。
运行评估: 使用 eval_rollout_results.py 脚本评估推理结果（最终答案正确性+过程得分）。
汇总结果: 使用 summarize_eval_scores.py 脚本按领域、级别和难度汇总分数。

依赖环境

主要依赖包: openai, cryptography, python-dotenv, requests。
安装命令: pip install -r requirements.txt

引用信息

会议: SIGIR 2026
引用格式: 提供了标准的BibTeX引用条目。

许可信息

许可证: CC BY 4.0
详情: 参见数据集卡片 (https://huggingface.co/datasets/Halcyon-Zhang/BrowseComp-V3)

搜集汇总

数据集介绍

构建方式

在构建BrowseComp-V³数据集的过程中，研究团队精心设计了300个涵盖多领域的复杂问题，这些问题均需通过多模态网络浏览工具进行深度搜索与多跳推理才能解答。为确保任务的挑战性，所有问题均无法仅依赖模型的参数化知识解决，且所有支持证据均具备公开可搜索性。构建流程采用了专家验证的子目标驱动评估机制，从而实现了对搜索行为的细粒度刻画与能力边界的系统性分析。

特点

BrowseComp-V³数据集以其视觉、垂直与可验证的三重特性而著称，它强调深度、多层次及跨模态的多跳推理，旨在全面评估多模态浏览代理在开放环境中的深度搜索能力。数据集不仅包含加密的问题-答案对以保护知识产权，还提供了精细的领域分布与难度层级统计，其设计严格遵循证据可公开检索的原则，并引入了基于子目标的流程评估体系，为多模态智能体的能力分析提供了可靠基准。

使用方法

使用BrowseComp-V³数据集时，需首先从Hugging Face平台下载加密数据，并通过提供的密钥进行解密，以获得标准JSON格式的问题与图像数据。随后，可利用附带的OmniSeeker框架或自定义脚本执行多模态浏览代理的推理流程，该过程涉及调用视觉语言模型并整合网络浏览工具。最终，通过内置的评估脚本对代理的答案正确性与搜索流程进行细粒度评分，从而系统衡量模型在多模态深度搜索任务上的性能表现。

背景与挑战

背景概述

随着多模态大语言模型在自主规划与工具调用能力上的持续演进，其正逐步转化为能够执行网络浏览以进行多模态深度搜索的智能体。然而，现有基准在任务复杂性、信息可检索性及评估维度上存在局限，难以全面衡量开放环境下多模态浏览代理的深度搜索能力。为填补这一空白，BrowseComp-V³基准应运而生，由相关研究团队于2026年构建。该数据集精心设计了涵盖多个领域的300个挑战性问题，强调深度、多层次及跨模态的多跳推理，确保任务必须依赖网络浏览工具而非仅凭模型参数知识完成。其通过严格保证所有支撑证据的公开可检索性，并引入专家验证的子目标驱动过程评估机制，实现了对搜索行为的细粒度刻画与能力边界的系统分析，显著推动了多模态智能体评估领域的发展。

当前挑战

BrowseComp-V³致力于解决多模态浏览代理在开放世界环境中进行深度搜索所面临的评估挑战。具体而言，其核心挑战在于设计能够有效检验模型跨模态信息整合与细粒度感知能力的复杂任务，这些任务需迫使模型超越参数记忆，执行依赖外部工具的多跳推理。在构建过程中，挑战体现在确保所有问题证据的公开可检索性以及设计可验证、细粒度的评估流程上，这要求对每个问题及其支撑信息进行 meticulous 的手工制作与专家验证，以杜绝数据泄漏并实现可靠的过程性评估，从而系统揭示现有模型在多模态原生推理能力上的根本性瓶颈。

常用场景

经典使用场景

在人工智能领域，多模态大语言模型正逐步演化为能够执行网络浏览任务的智能体，BrowseComp-V³数据集为此类模型的深度搜索能力评估提供了关键基准。该数据集精心构建了300个涵盖多元领域的复杂问题，强调深度、多层次及跨模态的多跳推理，确保任务必须依赖网络浏览工具而非仅凭模型参数知识完成。研究者通常利用此数据集对多模态浏览代理进行系统性测试，通过其子目标驱动的过程评估机制，细致刻画搜索行为并分析能力边界，从而推动模型在开放世界环境中的实际应用能力提升。

实际应用

在实际应用层面，BrowseComp-V³数据集为开发能够执行复杂信息检索任务的多模态浏览代理提供了重要支撑。这类代理可应用于垂直领域如文化、艺术、科技等，进行深度的跨模态内容搜索与答案生成，满足用户对精准、可信信息的需求。例如，在专业研究或商业分析中，代理能够根据图文混合输入，自主规划浏览步骤，整合网络公开证据，输出经过验证的结论。数据集附带的OmniSeeker框架进一步为构建通用型多模态浏览系统提供了实践蓝图，促进了智能体技术在真实网络环境中的部署与优化。

衍生相关工作

围绕BrowseComp-V³数据集，研究社区已衍生出一系列经典工作，主要集中在多模态智能体的架构设计与评估方法创新上。例如，其配套框架OmniSeeker作为一个通用多模态浏览代理框架，被广泛引用和扩展，用于探索模型在工具使用与自主规划方面的改进策略。同时，基于该数据集细粒度评估机制的研究，催生了针对多模态信息整合瓶颈的新型模型训练范式，以及专注于提升视觉-语言对齐与推理链可靠性的算法。这些工作共同推动了多模态浏览智能体领域的理论进展与技术实践，为后续更复杂、可扩展的智能系统开发奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集