WebChain
收藏github2026-04-14 更新2026-04-17 收录
下载链接:
https://github.com/franskey-0112/WebChain
下载链接
链接失效反馈官方服务:
资源简介:
WebChain是最大的开源数据集,包含由人类标注的真实世界网站交互轨迹,旨在加速网络代理的可重复研究。与受反机器人检测、验证码或认证墙阻挡的合成数据集不同,WebChain完全由人类标注者在实时、多样化的网站上构建,捕捉了最重要的复杂认证工作流程。
WebChain is the largest open-source dataset containing human-annotated real-world website interaction trajectories, aimed at accelerating reproducible research on web agents. Unlike synthetic datasets blocked by anti-bot detection, CAPTCHAs, or authentication walls, WebChain is entirely constructed by human annotators on real-time, diverse websites, capturing the most critical and complex authentication workflows.
创建时间:
2026-04-14
原始信息汇总
WebChain 数据集概述
数据集简介
WebChain 是一个大规模、由人工标注的真实世界网页交互轨迹数据集,旨在加速网页智能体领域的可复现研究。该数据集完全由人工标注者在真实、多样的网站上操作构建,捕获了包括身份验证流程在内的复杂工作流。
关键统计信息
| 指标 | 数值 |
|---|---|
| 总轨迹数 | 31,725 |
| 总交互步数 | 317,993 |
| 唯一域名数 | 428 |
| 平均轨迹长度 | 10.02 步 |
| 平均任务时长 | 1.07 分钟 |
核心特点
- 规模巨大:轨迹数量比现有最大的人工标注数据集多 10 倍。
- 覆盖真实工作流:包含电子商务结账、银行、旅行预订等合成方法无法捕获的需身份验证的工作流。
- 三重对齐:每个步骤都同步了视觉、结构和动作数据。
- 完全开源:所有数据均为公开。
数据模式
每个轨迹步骤包含跨三种模态的三重对齐信息:
| 模态 | 字段 |
|---|---|
| 视觉上下文 | 全页截图、视口特定裁剪图 |
| 结构上下文 | HTML 快照、无障碍(AX)树 |
| 动作基础 | 动作类型、像素坐标、边界框、CSS 选择器、XPath |
| 推理 | 动作的思维链(CoT)原理 |
领域覆盖
数据集涵盖 428 个唯一域名,涉及多样化类别:
- 购物与电子商务
- 航班与旅行预订
- 住宿与酒店
- 房地产与物业
- 金融科技与银行
- 以及其他更多类别
构建流程
WebChain 通过一个三阶段流程构建,确保规模与质量:
- 基于约束的任务合成:LLM 根据网站提取的功能模式生成分层的、可执行任务。
- 人在环路的轨迹收集:人工标注者通过被动日志工具完成任务,记录每一步的 DOM 快照、精确动作坐标、元素元数据和时间戳。
- 后处理上下文增强:包括视觉基础密集化和合成 CoT 生成。
实验与结果
- 双重中期训练方案:提出了将空间基础与长程规划解耦的训练范式,包括 LCRL、CoT-SFT 和 SGRL。
- 基准测试结果:在多个基准测试中,使用 WebChain 训练的模型取得了最强的整体性能,其中 WebChain-7B (+SGRL+CoT-SFT) 模型总体得分达到 81.4。
- 缩放定律:数据量与长程规划性能呈正相关,证实了 WebChain 的规模对于解锁稳健的网页智能体能力至关重要。
获取与引用
- 数据集地址:https://huggingface.co/datasets/computer-use-agent-Lab/WebChain
- 论文地址:https://arxiv.org/abs/2603.05295
- 引用格式: bibtex @article{fan2026webchain, title = {WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces}, author = {Sicheng Fan and Rui Wan and Yifei Leng and Gaoning Liang and Li Ling and Yanyi Shang and Dehan Kong}, journal = {arXiv preprint arXiv:2603.05295}, year = {2026} }
许可协议
本项目基于 Apache 2.0 许可证 发布。
搜集汇总
数据集介绍

构建方式
在构建WebChain数据集的过程中,研究团队设计了一套严谨的三阶段流程,以确保数据规模与质量的平衡。初始阶段,利用大型语言模型基于网站功能架构生成具有约束条件的可执行任务,这些任务根据复杂度进行分层,涵盖从简单检索到多约束导航及条件依赖任务。第二阶段,通过人类在环的轨迹收集方式,标注者借助被动日志工具WebChain Builder在真实网站环境中完成任务,同步记录DOM快照、精确动作坐标、元素元数据及时间戳。最后阶段进行后处理与上下文增强,包括对所有交互元素进行视觉定位密集化标注,并利用视觉语言模型为每个动作生成合成式的思维链推理,从而为智能体提供可解释的多步规划监督。
特点
WebChain数据集的核心特征在于其大规模、真实性以及多模态对齐的深度标注。作为目前最大的开源人类标注网页交互轨迹数据集,它包含了超过三万条轨迹和近三十二万次交互步骤,覆盖了428个独特域名,广泛涉及电子商务、金融科技、旅行预订等多个关键领域。与依赖合成方法的数据集不同,WebChain完全采集自真实、动态且需要身份验证的网站工作流,有效规避了反机器人检测等障碍。其独特的“三重对齐”架构确保了每一步交互都同步记录了视觉上下文(如全页截图)、结构上下文(如HTML与无障碍树)以及动作基础信息(包括类型、坐标与选择器),并辅以思维链推理,为训练能够理解复杂、长程网页任务的智能体提供了前所未有的丰富监督信号。
使用方法
WebChain数据集旨在推动可复现的网页智能体研究,其使用方法清晰且便于集成。数据集已完整托管于HuggingFace平台,研究者可直接通过指定路径加载,利用其标准化的数据模式进行模型训练与评估。数据集中每条轨迹的每一步都包含对齐的多模态信息,适合用于训练需要同时理解网页视觉布局、结构语义并执行精确操作的端到端模型。研究团队提出的“双重中期训练”范式——即结合长链导向的强化学习与思维链监督微调——展示了如何有效利用该数据集来分别提升智能体的空间定位能力和长程规划能力。用户可参照此范式,或基于数据集提供的密集视觉定位标注与合成思维链,开发新的训练策略,以评估和提升智能体在真实、复杂网页环境中的交互性能。
背景与挑战
背景概述
在智能体与复杂数字环境交互的研究领域,真实、大规模的人类行为轨迹数据对于训练和评估网络智能体至关重要。WebChain数据集由复旦大学、IMeanAI及上海创新研究院的研究团队于2026年创建,旨在解决现有合成数据集因反机器人检测、验证码或身份验证墙而无法捕获真实、认证工作流程的核心研究问题。作为当前最大的开源人类标注网络交互轨迹数据集,它包含了超过3.1万条轨迹和近32万个交互步骤,覆盖428个独特域名,专注于电子商务结账、银行服务、旅行预订等需要身份验证的复杂任务。该数据集的发布显著推动了网络智能体在长程规划、空间接地与可解释推理方面的可复现研究,为领域设立了新的数据规模与质量基准。
当前挑战
WebChain数据集致力于应对网络智能体研究中的关键挑战:如何让模型在真实、动态且需要身份验证的网站环境中执行长程、多步骤的复杂任务。具体挑战包括:在多样化的网站布局与交互模式中实现精准的动作接地,以及理解并规划涉及条件依赖和多约束导航的认证工作流程。在数据集构建过程中,研究团队面临的主要挑战在于如何高效收集大规模、高质量的人类标注轨迹,同时确保数据在多模态上的对齐与丰富性。这涉及设计被动日志工具以精确记录每一步的视觉、结构上下文与动作坐标,并通过后处理流程对视觉接地进行密集标注,以及利用视觉语言模型生成可解释的思维链推理,以保障数据的一致性与监督信号的密度。
常用场景
经典使用场景
在智能体与网页交互的研究领域,WebChain数据集凭借其大规模、真实且经过人工标注的轨迹记录,为训练和评估网络智能体提供了经典场景。该数据集覆盖了电子商务、金融科技、旅行预订等428个独特领域的真实网站,尤其专注于那些需要身份验证的复杂工作流程,如在线支付、银行操作等,这些场景往往因反机器人检测机制而难以通过合成数据模拟。研究者利用这些轨迹数据,能够深入分析智能体在动态、多模态网页环境中的决策过程,从而推动可复现的实证研究。
解决学术问题
WebChain数据集有效应对了网页智能体研究中的若干核心挑战。它通过提供海量真实交互轨迹,解决了合成数据因验证码、身份验证墙等限制而无法捕捉关键业务流程的难题。数据集特有的三重对齐机制——同步视觉、结构及行为数据——为模型提供了密集的、基于布局的监督信号,有助于攻克智能体在长时程规划与空间 grounding 方面的技术瓶颈。其规模与质量证实了数据量与智能体规划性能之间的正向关联,为构建鲁棒、可泛化的网页交互模型奠定了坚实的实证基础。
衍生相关工作
围绕WebChain数据集,已衍生出一系列具有影响力的研究工作。其中,论文提出的‘双重中期训练’范式——包括面向长链规划的LCRL、基于思维链的CoT-SFT以及专注于空间定位的SGRL——已成为该领域的经典训练框架。此外,数据集所启发的视觉 grounding 密集化与合成思维链生成技术,也为后续研究提供了重要的方法学参考。这些工作共同推动了网页智能体在AC-High/Low、GUI-Act-Web等多个基准测试上的性能突破,确立了数据驱动方法在解决复杂网页任务中的核心地位。
以上内容由遇见数据集搜集并总结生成



