WebHarbor
收藏github2026-05-12 更新2026-05-13 收录
下载链接:
https://github.com/aiming-lab/WebHarbor
下载链接
链接失效反馈官方服务:
资源简介:
WebHarbor将热门网站镜像到本地、稳定、基于Docker的环境中,包含完整的身份验证、数据库和多模态图像内容。环境随着代理能力的发展而演进,提供无网络噪声、无内容漂移、无地理限制的稳定可复现数据集,解锁深度功能如购物车、结账、账户等,适用于大规模RL训练。
WebHarbor mirrors popular websites into local, stable, Docker-based environments that integrate full authentication systems, databases, and multimodal image content. These environments evolve alongside advances in proxy capabilities, delivering stable, reproducible datasets free of network noise, content drift, and geographic restrictions. The platform unlocks advanced functionalities including shopping carts, checkout workflows, user accounts and more, and is tailored for large-scale reinforcement learning (RL) training.
创建时间:
2026-05-02
原始信息汇总
数据集概述:WebHarbor
WebHarbor 是一个用于 GUI 智能体环境演进的真实网站镜像数据集,旨在将流行的真实网站转化为本地、稳定、基于 Docker 的镜像环境,支持完整的认证、数据库和多模态图像内容,并随智能体能力一同进化。
核心动机
- 真实网站的局限性:真实网站存在 reCAPTCHA、地理封锁、网络波动和内容漂移等问题,其登录后的核心功能难以被基准测试触及。
- 现有离线环境的不足:现有离线网页环境要么将网页冻结为玩具式的合成站点,要么退化为无真实交互的静态轨迹,限制了大规模强化学习训练。
- WebHarbor 的解决方案:利用编码智能体(如 Claude Code/CodeX)将真实网站镜像到本地 Docker 中,提供稳定、可复现、可深入交互的进化式环境。
主要特性
- 稳定可复现:无网络噪声、内容漂移或地理封锁。
- 深度功能解锁:支持购物车、结账、账户等完整功能测试。
- 进化性:更难的任务驱动更丰富的镜像,环境随智能体能力增长。
- 强化学习就绪:支持次秒级数据库重置,便于多轮次训练。
- 社区驱动:当前包含15个网站,目标扩展到100+。
快速开始
- 环境启动:运行命令
docker run -p 8101:8101 -p 40000-40014:40000-40014 battalion7244/webharbor:latest,即可在本地localhost:40000至40014访问15个网站镜像。 - 网站列表:Allrecipes, Amazon, Apple, ArXiv, BBC News, Booking, GitHub, Google Flights, Google Maps, Google Search, Hugging Face, Wolfram Alpha, Cambridge Dictionary, Coursera, ESPN。
- 重置功能:
- 单站重置:
curl -X POST http://localhost:8101/reset/amazon - 全部重置:
curl -X POST http://localhost:8101/reset-all
- 单站重置:
- 自行构建:克隆仓库后运行
./scripts/fetch_assets.sh和./scripts/build.sh。
社区贡献
- Track A - 贡献新网站:使用编码智能体构建新镜像(前端+后端+数据库+任务),贡献一个网站即可进入论文作者列表。需先查看贡献追踪表认领网站,并提交贡献申请表。
- Track B - 审核环境:审核已提交镜像的视觉保真度、功能正确性和任务基础,审核5个环境可进入作者列表。需查看开放拉取请求并遵循审核流程。
- 其他贡献:Bug 修复、UI 优化、数据增强、任务建议等,均可进入论文致谢部分。
资源链接
- HuggingFace 数据集:ChilleD/WebHarbor
- 项目页面:WebHarbor 项目页
- GitHub 仓库:Code Repo
- 贡献追踪表:Google Sheet
- 贡献申请表:Google Form
搜集汇总
数据集介绍

构建方式
WebHarbor的构建理念在于将真实网站“停靠”至本地环境,形成稳定且可复现的Docker镜像。其核心技术路径是借助编码智能体(如Claude Code或CodeX),系统地抓取并复制真实网站的前端界面、后端逻辑、用户数据库以及多模态图像内容,打包成自包含的镜像。这一过程不仅保留了原网站的核心交互功能(如购物车、结账、账户管理),还通过容器化技术彻底隔绝了网络波动、地理封锁和内容漂移等外部干扰,为智能体提供了纯净且深度可用的测试场域。
特点
该数据集的核心特色在于其可演进性与RL就绪特性。当前已覆盖WebVoyager基准中的15个流行网站,包括Amazon、GitHub、Google Flights等,且社区驱动的扩展计划正朝着100余个站点迈进。每个镜像均支持亚秒级数据库重置,使得大规模强化学习训练中的频繁回滚成为可能。此外,镜像环境随智能体能力同步进化——更复杂的任务推动生成更丰富的镜像,形成能力与数据相辅相成的良性生态,彻底打破了传统基准因静态快照而止步不前的瓶颈。
使用方法
数据集的使用极为简便:用户只需通过一条Docker命令即可启动包含所有镜像的统一服务器,随后将智能体指向本地的指定端口范围(40000至40014),即可在15个站点之间自由探索。对于强化学习场景,系统提供了控制平面接口,支持通过RESTful调用实现单个站点或全部站点的并行重置,确保实验的高效迭代。进阶用户亦可选择从源码构建镜像,通过克隆仓库并执行资产拉取与构建脚本,灵活定制自身的实验环境。
背景与挑战
背景概述
WebHarbor是北卡罗来纳大学教堂山分校与微软于2026年联合推出的开源数据集项目,旨在为图形用户界面(GUI)智能体研究提供稳定、可复现且深度可交互的网页环境。当前在线网站普遍存在验证码拦截、区域封锁、网络波动及内容漂移等噪声干扰,而关键功能(如购物车、账户登入)往往隐藏在登录墙之后,现有离线模拟环境要么依赖合成静态网页,要么仅能重现有限的交互轨迹,无法支持智能体的大规模强化学习训练。WebHarbor通过利用编码智能体将真实网站镜像至本地Docker容器,保留了完整的后端数据库与多模态图像内容,使得购物、预订、搜索等深度功能可被全面测试,填补了真实网页模拟与智能体演化训练之间的关键空白,推动了GUI智能体领域的基准测试迈向更高生态效度。
当前挑战
WebHarbor面临的核心挑战包括:1)领域问题层面,如何弥合真实在线网站的动态复杂性(如人机验证、内容变化)与离线模拟环境可控性之间的鸿沟,构建既保留原有交互深度又具备训练所需稳定性的网站镜像;2)构建过程中,镜像单个网站需要手动解析其前后端逻辑并复现账号体系、数据库状态等核心模块,工作量大且技术门槛高,当前仅完成15个WebVoyager站点的镜像,规模化至100余个Online-Mind2Web站点面临协作效率与质量一致性的难题;3)环境演化挑战,即如何设计机制使镜像随智能体能力的提升而自动扩展任务复杂度与覆盖范围,避免环境固化导致智能体过拟合。
常用场景
经典使用场景
WebHarbor最经典的使用场景是为基于图形用户界面的智能体(GUI Agent)提供稳定、可复现且功能完备的交互式训练与评估环境。通过将真实网页镜像至本地Docker容器,研究人员可直接启动多个镜像站点,用于测试智能体在Amazon、GitHub、Google Flights等15个流行网站上的自主操作能力。该环境支持子秒级数据库重置,使得大规模强化学习训练中的反复试错与回滚成为可能,是推动Web智能体从静态脚本迈向动态交互的关键基础设施。
衍生相关工作
围绕WebHarbor,衍生了一系列富有影响力的相关工作。首先是基于其镜像机制构建的更大规模在线基准Online-Mind2Web,覆盖数百个真实网站,推动任务难度与广度攀升。其次是强化学习导向的网页导航框架,利用子秒级重置特性在多轮交互中训练出更高效的策略网络。此外,出现了结合视觉语言模型的GUI理解工作,利用镜像站点的多模态内容训练智能体在复杂页面布局中的元素定位与意图推理能力。这些工作共同构筑了一个以WebHarbor为基座的Web智能体研究生态。
数据集最近研究
最新研究方向
WebHarbor聚焦于构建稳定、可复现且可演进的真实网站镜像环境,以应对当前GUI智能体在现实网页上面临的验证码、地域封锁、内容漂移等挑战。该数据集通过Docker封装15个主流网站(如Amazon、Google Maps等)的完整功能(包括登录、购物车、结账等深层交互),并支持毫秒级数据库重置,为强化学习训练提供了高度可靠的离线沙盒。其创新之处在于利用编码智能体自动生成镜像,并采用社区驱动的协作模式计划扩展至100+站点,填补了离线环境缺乏真实交互与在线环境噪声干扰之间的空白。这一工作不仅推动了WebVoyager等基准测试的深入发展,也为大规模、可扩展的GUI智能体研究奠定了基础设施,有望加速多模态智能体在电子商务、学术搜索等复杂场景中的实际应用。
以上内容由遇见数据集搜集并总结生成



