BrowseComp-V3

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/Halcyon-Zhang/BrowseComp-V3

下载链接

链接失效反馈

官方服务：

资源简介：

BrowseComp-V3是一个针对多模态浏览代理的垂直、可验证和可视化基准数据集。该数据集包含文本和图像两种模态的数据，主要用于训练和评估多模态浏览代理的性能。数据集中的每个样本包含以下字段：唯一标识符（id）、类别（category）、子类别（sub_category）、图像路径（image和image_paths）、加密的问题和答案（encrypted_question和encrypted_answer，使用AES-256-GCM加密），以及明文的元数据（metadata）、子目标（sub_goals）和轨迹（trajectory）信息。数据集以JSONL格式存储，包含一个主预览文件（train.jsonl）、原始加密数据（bcv3_encrypted.jsonl）、相关图像（data/images/）和元数据文件。特别需要注意的是，由于HuggingFace Hub数据集查看器的限制，图像字段被声明为字符串类型而非图像类型，以避免路径解析错误。数据集采用CC BY 4.0许可协议。

创建时间：

2026-02-11

原始信息汇总

BrowseComp-V3 数据集概述

数据集基本信息

数据集名称: BrowseComp-V3
发布地址: https://huggingface.co/datasets/Halcyon-Zhang/BrowseComp-V3
许可证: CC BY 4.0
配置与数据文件: 数据集包含一个默认配置（default），其训练集数据文件位于 data/train.jsonl。

数据集目的与描述

BrowseComp-V3 是一个用于多模态浏览智能体的垂直、可验证、可视化基准测试数据集。

数据内容与结构

主要数据文件:
- data/train.jsonl: 主预览文件，包含加密的问题/答案以及开放的注释。
- data/bcv3_encrypted.jsonl: 原始的加密 JSONL 文件。
- data/images/: 存储样本引用的所有图像文件。
- metadata/index.csv: 为 Hugging Face 平台提供的预览友好型索引文件。
- metadata/category_stats.json: 数据集统计信息文件。
- scripts/: 包含解密脚本的目录。

数据特征（Features）

train.jsonl 文件中每一行是一个 JSON 对象，包含以下字段：

id (string): 样本标识符。
category (string): 类别。
sub_category (string): 子类别。
image (string): 用于 Hugging Face 查看器显示的首张图像路径。
image_paths (string): 完整的图像路径列表。
encrypted_question (string): 使用 AES-256-GCM 加密的问题。
encrypted_answer (string): 使用 AES-256-GCM 加密的答案。
metadata (string): 元数据（明文）。
sub_goals (string): 子目标（明文）。
trajectory (string): 轨迹（明文）。

重要说明

图像预览: image 字段是 image_paths 中的第一张图像，用于在 Hugging Face 查看器中显示。由于 Hugging Face Dataset Viewer 仅获取 data_files 中列出的文件（如 data/train.jsonl），无法解析如 data/images/xxx.jpg 的完整路径，因此 image 字段被声明为 string 类型以避免加载错误。若需在 Hub 上进行图像预览，请使用 Parquet 导出文件（参考 scripts/export_parquet_for_viewer.py）。在本地使用 load_dataset("path/to/repo") 加载时，可以访问完整仓库并将 image 字段转换为 Image() 进行 PIL 解码。
数据解密: 需参考 decryption_guide.md 来解密并恢复明文的问题和答案。

搜集汇总

数据集介绍

构建方式

在构建BrowseComp-V3数据集的过程中，研究团队采用了系统化的数据采集与加密处理策略。该数据集通过整合多模态信息，包括视觉图像与文本交互轨迹，构建了涵盖多个垂直领域的样本。每个样本均包含加密的问答对以及明文标注的元数据、子目标和浏览轨迹，确保了数据的隐私安全与可验证性。图像数据以路径形式存储，并与文本信息关联，形成了结构化的多模态基准。

使用方法

使用BrowseComp-V3数据集时，需首先通过提供的解密脚本恢复加密问答的明文内容，以获取完整的任务指令与答案。随后，可利用本地加载功能将图像路径转换为PIL图像对象，实现多模态数据的联合处理。数据集适用于训练与评估多模态浏览智能体，用户可依据明文轨迹与元数据设计模型训练流程，并通过Hub的Parquet导出功能进行在线预览与验证。

背景与挑战

背景概述

随着人工智能向多模态交互的纵深发展，能够理解并执行网页浏览任务的智能体成为研究热点。BrowseComp-V3数据集应运而生，由研究团队于近期构建，旨在为多模态浏览智能体提供一个垂直、可验证且视觉化的基准测试平台。该数据集聚焦于智能体在真实网络环境中的复杂任务执行能力，通过整合加密的问答对、清晰的子目标分解以及浏览轨迹记录，为核心研究问题——即如何评估和提升智能体在富视觉信息环境下的感知、推理与操作能力——提供了结构化数据支撑。它的出现显著推动了具身智能与自动化人机交互领域的实证研究，为模型训练与评估设立了新的标准。

当前挑战

BrowseComp-V3数据集致力于解决多模态浏览智能体在理解和执行开放式网页任务时所面临的评估难题，其核心挑战在于如何设计一个既涵盖多样化垂直场景、又能严格验证智能体行为正确性的基准。在构建过程中，研究团队需克服多重困难：一是数据采集与标注的复杂性，需在保护用户隐私的前提下，对涉及敏感信息的问答内容进行高质量加密处理；二是确保数据集的视觉真实性与任务多样性，需整合大量网页截图并设计具有层次结构的子目标；三是技术实现上的挑战，如处理图像路径的解析与兼容不同平台的数据加载，以维持数据集的可用性与可复现性。

常用场景

经典使用场景

在人工智能领域，多模态浏览代理的研究正逐步深入，BrowseComp-V3数据集为此提供了垂直、可验证且视觉化的基准测试环境。该数据集最经典的使用场景是评估和训练能够理解网页视觉内容并执行复杂交互任务的智能体，例如在电子商务平台中根据图像和文本信息进行商品比较与选择。通过模拟真实浏览环境，研究者能够系统性地测试代理在跨模态信息融合与决策制定方面的能力，推动多模态交互系统的发展。

解决学术问题

BrowseComp-V3数据集主要解决了多模态智能体研究中缺乏标准化、可重复评估基准的学术问题。传统方法往往依赖单一模态或简化环境，难以全面衡量代理在真实网络场景下的表现。该数据集通过提供加密的问答对与开放的注释轨迹，支持对代理的视觉理解、任务分解及安全决策进行细粒度分析，从而促进了多模态学习、强化学习与网络安全等交叉领域的理论进展，为构建可靠、高效的浏览智能体奠定了数据基础。

实际应用

在实际应用层面，BrowseComp-V3数据集可广泛应用于智能助手、自动化测试及教育技术等领域。例如，在智能客服系统中，基于该数据集训练的代理能够辅助用户浏览产品页面，通过图像识别与文本分析提供个性化推荐；在软件测试中，它可用于模拟用户交互以检测网页界面的可用性与安全性。这些应用不仅提升了人机协作的效率，还增强了网络服务的智能化水平，具有显著的商业与社会价值。

数据集最近研究