BrowserAgent-Data

Name: BrowserAgent-Data
Creator: TIGER-Lab
Published: 2025-10-25 10:31:40
License: 暂无描述

Hugging Face2025-10-25 更新2025-10-27 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/BrowserAgent-Data

下载链接

链接失效反馈

官方服务：

资源简介：

BrowserAgent-Data 数据集是用于 BrowserAgent 项目的数据集，包含问题回答等任务类别，支持英语。该数据集有六个不同的配置，每个配置都有数据源、提示、能力、奖励模型和额外信息等特征。数据集被划分为训练集、验证集和测试集，每个部分的示例数量和文件大小都有详细说明。同时提供了数据集的总行数和总大小，以及每个子集的大小。

提供机构：

TIGER-Lab

创建时间：

2025-10-25

原始信息汇总

BrowserAgent-Data 数据集概述

基本信息

许可证：Apache-2.0
任务类别：问答
语言：英语
数据集名称：BrowserAgent-Data
数据规模：10万<n<100万

配置信息

2wiki配置

数据文件：
- 训练集：2wiki/train-*
- 验证集：2wiki/validation-*
特征结构：
- data_source：字符串
- prompt：包含content和role的列表
- ability：字符串
- reward_model：包含ground_truth和style的结构体
- extra_info：包含golden_answers、id、index、question、selected_answer、split、url的结构体
数据统计：
- 训练集：10,000个样本，30,017,634字节
- 验证集：25,152个样本，77,487,838字节
- 下载大小：5,337,430字节
- 数据集大小：107,505,472字节

bamboogle配置

数据文件：
- 测试集：bamboogle/test-*
特征结构：与2wiki配置相同
数据统计：
- 测试集：125个样本，375,279字节
- 下载大小：31,940字节
- 数据集大小：375,279字节

hotpot配置

数据文件：
- 训练集：hotpot/train-*
- 验证集：hotpot/validation-*
特征结构：与2wiki配置相同
数据统计：
- 训练集：90,447个样本，275,677,806字节
- 验证集：14,810个样本，44,988,550字节
- 下载大小：26,887,684字节
- 数据集大小：320,666,356字节

musique配置

数据文件：
- 训练集：musique/train-*
- 验证集：musique/validation-*
特征结构：与2wiki配置相同
数据统计：
- 训练集：10,000个样本，30,330,307字节
- 验证集：4,834个样本，14,816,106字节
- 下载大小：1,903,274字节
- 数据集大小：45,146,413字节

nq配置

数据文件：
- 训练集：nq/train-*
- 测试集：nq/test-*
特征结构：
- data_source：字符串
- prompt：包含content和role的列表
- ability：字符串
- reward_model：仅包含style的结构体
- extra_info：包含golden_answers、index、question、seed、selected_answer、split的结构体
数据统计：
- 训练集：79,168个样本，211,902,069字节
- 测试集：3,610个样本，9,704,046字节
- 下载大小：38,473,805字节
- 数据集大小：221,606,115字节

popqa配置

数据文件：
- 测试集：popqa/test-*
特征结构：与2wiki配置相同
数据统计：
- 测试集：14,267个样本，43,789,979字节
- 下载大小：1,301,046字节
- 数据集大小：43,789,979字节

总体统计

总样本数：230,015行
总大小：约29.47 MB
子集分布：
- 2wiki：22,576行（约2.73 MB）
- bamboogle：125行（约0.03 MB）
- hotpot：97,852行（约14.20 MB）
- musique：12,417行（约0.92 MB）
- nq：82,778行（约10.14 MB）
- popqa：14,267行（约1.45 MB）

数据格式

所有文件以Parquet格式存储在各子集目录下，包含开发集/训练集/测试集分割（如适用）。

搜集汇总

数据集介绍

构建方式

在智能体交互研究领域，BrowserAgent-Data通过整合多个权威问答数据集构建而成，涵盖2Wiki、Bamboogle、HotpotQA、Musique、Natural Questions和PopQA等子集。数据采集过程严格遵循原始数据集的标注规范，采用结构化特征设计确保问题-答案对的完整性与一致性。构建时依据任务需求划分训练集、验证集和测试集，通过Parquet格式高效存储多模态交互数据，为浏览器智能体研究提供扎实的数据基础。

特点

该数据集展现出显著的多样性与层次化特征，囊括23万余条英文问答实例，覆盖知识推理、多跳问答等复杂认知任务。其核心特征体现在统一的结构化字段设计中，包含提示序列、能力分类、奖励模型参数及元信息嵌套结构。各子集规模分布均衡，从125条的精炼样本到近10万条的大规模数据，既满足模型验证需求又支持深度训练，所有数据均经过严格的去重与质量校验。

使用方法

研究者可依据具体任务需求调用不同子集进行模型训练与评估，例如使用HotpotQA开展多跳推理研究，或通过Bamboogle实现针对性测试。数据加载时直接读取Parquet文件获取结构化特征，利用prompt字段构建对话上下文，结合ability标签实现任务定向训练。验证阶段可通过reward_model模块进行性能量化，extra_info中的黄金答案则为模型输出提供精准的评估基准。

背景与挑战

背景概述

BrowserAgent-Data数据集作为智能体交互研究领域的重要资源，聚焦于浏览器环境下的问答任务范式。该数据集整合了六个知名子集——2Wiki、Bamboogle、HotpotQA、Musique、Natural Questions和PopQA，总计包含超过23万条样本数据。在自然语言处理技术快速发展的背景下，该数据集旨在解决智能体在真实网络环境中执行复杂信息检索与多步推理的核心问题。通过模拟人类浏览网页的行为模式，数据集为开发能够自主导航、理解网页内容并准确回答问题的智能体系统提供了关键训练基础。

当前挑战

该数据集面临的首要挑战在于解决开放域问答中复杂推理路径的建模问题，特别是处理多跳推理和跨文档信息整合的难度。构建过程中的技术挑战体现在网页内容的结构化解析与语义标注，需要精确提取关键信息同时保持上下文连贯性。数据质量的把控亦构成显著挑战，包括确保答案准确性、消除标注歧义以及维持不同子集间标注标准的一致性。此外，真实网络环境的动态特性对数据时效性提出持续要求，需要建立有效的数据更新机制以适应网页内容的频繁变更。

常用场景

经典使用场景

在智能代理与网络交互研究领域，BrowserAgent-Data通过整合2Wiki、HotpotQA等六个权威问答子集，构建了浏览器环境下的多轮对话仿真平台。该数据集典型应用于训练自主浏览代理执行复杂信息检索任务，模拟人类在网页导航中的决策过程，涵盖从简单事实查询到多跳推理的完整操作链条。其结构化提示词与奖励机制设计，为评估代理在动态网络环境中的规划能力提供了标准化测试基准。

解决学术问题

该数据集有效应对了具身智能研究中的环境交互建模难题，通过融合多源异构网络数据，解决了传统问答系统缺乏实际操作反馈的局限性。其创新性地将自然语言理解与浏览器操作指令相耦合，为研究人机协作中的动作序列生成、跨模态推理等关键问题提供了数据支撑。这种设计显著推进了基于强化学习的交互代理在开放域环境中的泛化能力研究。

衍生相关工作

基于该数据集衍生的经典研究包括TIGER-AI-Lab开发的BrowserAgent框架，该工作首次实现了端到端的网络浏览智能体。后续研究进一步拓展了其在多模态指令理解、跨平台操作迁移等方向的应用，催生了如WebGPT、MindAct等系列成果。这些衍生工作共同推动了具身智能在网页环境中的认知建模与技术落地，形成了浏览器交互任务的新研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集