BU_Bench_V1

github2026-01-30 更新2026-02-03 收录

下载链接：

https://github.com/browser-use/benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

100个手工选择的任务，用于评估浏览器自动化代理。任务来源包括自定义页面交互挑战、WebBench的网页浏览任务、Mind2Web 2的多步网页导航、GAIA的通用AI助手任务（基于网页）以及BrowseComp的浏览器理解任务。

This dataset contains 100 manually selected tasks for evaluating browser automation agents. The tasks are sourced from custom page interaction challenges, web browsing tasks from WebBench, multi-step web navigation tasks from Mind2Web 2, web-based general AI assistant tasks from GAIA, and browser comprehension tasks from BrowseComp.

创建时间：

2026-01-27

原始信息汇总

数据集概述

数据集基本信息

数据集名称: BU_Bench_V1
主要用途: 用于评估浏览器自动化智能体
任务数量: 100个
任务性质: 人工筛选的任务

任务构成与来源

该基准测试包含100个任务，来源于以下五个基准测试和自定义挑战：

来源	任务数量	描述
Custom	20	页面交互挑战
WebBench	20	网页浏览任务
Mind2Web 2	20	多步骤网页导航
GAIA	20	通用AI助手任务（基于网络）
BrowseComp	20	浏览器理解任务

任务格式

每个任务包含以下字段：

字段	描述
`task_id`	唯一标识符
`confirmed_task`	任务指令
`category`	来源基准测试
`answer`	真实答案（如适用）

数据使用与处理说明

数据编码: 任务集以base64编码存储，以防止LLM训练中的数据污染。
使用限制: 请勿以纯文本形式发布任务或将其用于模型训练数据。
GAIA数据处理: 为遵守其数据政策，仅包含来自“完全公开”验证集的任务，且所有任务均经过base64编码和加密。

许可证与归属

WebBench: MIT许可证，来源：https://webbench.ai/
Mind2Web 2 (OMI2W-2): MIT许可证，来源：https://openreview.net/forum?id=AUaW6DS9si
BrowseComp: MIT许可证，来源：https://cdn.openai.com/pdf/5e10f4ab-d6f7-442e-9508-59515c65e35d/browsecomp.pdf
GAIA: 无明确许可证（仅使用公开验证集），来源：https://huggingface.co/datasets/gaia-benchmark/GAIA

评估与运行

结果保存: 评估结果保存至results/目录，详细追踪数据保存至run_data/目录。
模型支持: 支持ChatBrowserUse、OpenAI、Anthropic、Google等模型进行评估。

搜集汇总

数据集介绍

构建方式

在浏览器自动化智能体评估领域，构建一个全面且具有挑战性的基准测试集至关重要。BU_Bench_V1数据集的构建采用了精心筛选与多源融合的策略，从多个已建立的权威基准中选取了共计100个任务。这些任务来源于五个核心渠道：包括20个自定义的页面交互挑战、20个来自WebBench的网页浏览任务、20个取自Mind2Web 2的多步骤网页导航任务、20个基于GAIA基准的通用人工智能助手网络任务，以及20个来自BrowseComp的浏览器理解任务。为确保任务的质量与可行性，研究团队对每个任务进行了人工筛选，侧重于任务的难度，并逐一验证了其可完成性。为遵循数据使用政策并防止大语言模型训练中的数据污染，来自GAIA的数据仅使用了其完全公开的验证集部分，且所有任务均经过Base64编码和加密处理。

特点

该数据集作为评估浏览器自动化智能体的基准，展现出多维度、高保真与严谨性的核心特点。其任务集合覆盖了从基础的页面交互到复杂的多步骤网络导航，乃至通用的网络助手任务，形成了一个层次分明、难度递进的评估体系。数据集中的每个任务都配备了唯一的任务标识符、经过确认的任务指令、来源分类以及可用的真实答案，结构清晰规范。尤为突出的是，数据集在设计上特别注重防止评估偏差，通过采用加密编码的任务描述，有效规避了模型在预训练阶段可能接触过相同数据而导致性能虚高的问题。这种设计确保了评估结果的可靠性与可比性，为不同智能体模型提供了一个公平、稳定的竞技场。

使用方法

对于研究人员和开发者而言，使用BU_Bench_V1进行模型评估是一个标准化且灵活的过程。评估流程始于环境配置，用户需安装指定的依赖包并配置相应的API密钥，包括浏览器自动化接口与大语言模型评判器所需的密钥。核心评估脚本允许用户便捷地切换不同的智能体模型，例如默认推荐的ChatBrowserUse，或替换为OpenAI、Anthropic、Google等主流提供商的大语言模型后端。运行评估脚本后，系统将自动执行所有预设任务，并将详细的评估结果与任务执行轨迹分别保存至指定目录。这种设计不仅简化了评估的启动步骤，还为用户提供了深入分析模型在具体任务上成功与失败细节的能力，极大地便利了浏览器自动化智能体的迭代与优化工作。

背景与挑战

背景概述

在人工智能与网络交互技术深度融合的背景下，浏览器自动化智能体成为实现通用人工智能的关键路径之一。BU_Bench_V1数据集由Browser-Use团队于2025年构建，旨在为浏览器自动化智能体提供一个严谨、全面的评估基准。该数据集精心筛选并整合了来自多个权威基准的100项任务，涵盖页面交互、多步导航、网页理解及通用助理功能等核心研究问题，其设计不仅推动了智能体在复杂网络环境中的任务执行能力研究，也为跨模型性能比较提供了标准化平台，对促进自动化智能体领域的算法创新与工程实践具有显著影响力。

当前挑战

浏览器自动化智能体需在动态、开放的网页环境中执行多样化任务，这要求模型具备强大的自然语言理解、多模态感知与序列决策能力。BU_Bench_V1所应对的核心挑战在于如何准确评估智能体在真实网络场景下的鲁棒性、泛化性及复杂任务分解能力。在数据集构建过程中，研究团队面临多重挑战：一是任务来源的异构性整合，需从WebBench、Mind2Web 2、GAIA及BrowseComp等不同基准中筛选并验证任务的可行性与难度平衡；二是数据污染的防控，通过Base64编码与加密技术防止任务指令泄露至模型训练数据；三是标注一致性的保障，确保每项任务均经过人工确认可实现，并建立可靠的真实答案标注体系。

常用场景

经典使用场景

在浏览器自动化与智能代理研究领域，BU_Bench_V1数据集作为一项精心构建的评估基准，其经典使用场景聚焦于系统性地评测各类大语言模型驱动的浏览器自动化代理的性能。研究者通过该数据集提供的100个经过人工筛选与验证的任务，能够模拟真实网络环境下的复杂交互，例如网页导航、信息检索与多步骤操作，从而客观衡量代理在准确性、效率及鲁棒性方面的表现。

解决学术问题

该数据集有效解决了智能体研究中的核心评估难题，即缺乏标准化、高难度且多样化的浏览器交互任务集。它通过整合来自WebBench、Mind2Web 2、GAIA及BrowseComp等多个权威基准的任务，并引入自定义的页面交互挑战，为学术界提供了一个统一的性能度量平台。其意义在于推动了浏览器自动化代理从概念验证迈向严谨的量化比较，促进了模型泛化能力、任务规划与执行可靠性等关键问题的深入研究。

衍生相关工作

围绕BU_Bench_V1数据集，已衍生出一系列探索浏览器智能体前沿的经典研究工作。这些工作不仅包括对基准本身所集成的原始研究（如Mind2Web 2对多步导航的评估、BrowseComp对浏览理解的测试）的深入应用与比较，更催生了针对新型代理架构、高效规划算法以及抗干扰交互策略的创新探索。该基准已成为连接多个子领域研究的枢纽，持续激发着对智能体在开放网络环境中能力边界的新认知。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集