AtomBlock-WebUI
收藏AtomBlock-WebUI 数据集概述
数据集基本信息
- 数据集名称:AtomBlock-WebUI
- 许可证:CC BY-NC-SA 4.0(仅限非商业研究用途)
- 任务类别:目标检测
- 主要语言:英语
- 标签:agent, ui, gui, object-detection, web, webui, yolo
- 数据规模:1K < n < 10K
- 配置名称:preview
数据集内容与规模
- 总图像数量:9,683 张
- 总边界框数量:1,321,234 个
- 数据分割:
- 训练集:7,746 张(80.0%)
- 验证集:968 张(10.0%)
- 测试集:969 张(10.0%)
- 图像分辨率:可变全页高度,标准化宽度。
- 数据集大小:308,288,831 字节
- 下载大小:303,645,823 字节
数据特征
file_name:字符串viz_image:图像raw_image:图像html:字符串html_with_images:字符串labels:字符串
数据概述
AtomBlock-WebUI 是一个合成的 Web UI 数据集,包含通过程序对齐的元素标注。该数据集通过 LLM 增强的 HTML 渲染和无头浏览器截图捕获生成。它包含约 9,700 张全页网页截图,并为 14 个 UI 元素类别提供了 YOLO 格式的边界框标注。边界框通过 Playwright 直接从渲染的 DOM 中提取,确保了与视觉输出的严格几何对齐。合成 HTML 中注入了真实世界的图像,以弥合合成布局与真实 Web 环境之间的视觉分布差距。
数据来源
- Multimodal-Mind2Web:用作结构提示以指导 HTML 布局生成的原始网页截图。
- CC3M-wds:通过基于 FAISS 标题的语义检索注入到 HTML
<img>标签中的真实世界图像。 - Qwen3.6-plus:用于生成嵌入了
yolo-*类属性的语义 HTML 的大型语言模型。
目录结构
AtomBlock-WebUI/ ├── html/ # 9,683 个由 LLM 生成的原始 HTML 文件 ├── html_with_images/ # 9,432 个注入 CC3M 图像后的 HTML 文件 ├── images/ # 9,432 个从 CC3M 注入的真实图像 ├── labels/ # 9,683 个 YOLO 格式的标注文件 (.txt) ├── png_raw/ # 9,683 个全页原始截图 (PNG) ├── png_viz_raw/ # 9,683 个带有边界框叠加的可视化截图 └── yolo-dataset/ # 即用型 YOLO 数据集分割 ├── data.yaml # 数据集配置(14 个类别) ├── train/ ├── val/ └── test/
标注格式
采用 YOLO 格式。每个 .txt 文件为每个检测到的元素包含一行:
<class_id> <center_x> <center_y> <width> <height>
所有坐标均归一化到 [0, 1],相对于特定图像的尺寸。
标注类别(14 类)
| ID | 名称 | 描述 |
|---|---|---|
| 0 | button |
可点击的按钮元素 |
| 1 | link |
超链接/锚文本 |
| 2 | input |
输入字段(文本、搜索等) |
| 3 | image |
图像元素 |
| 4 | icon |
图标/小型图形符号 |
| 5 | checkbox |
复选框输入元素 |
| 6 | radio |
单选按钮元素 |
| 7 | select |
下拉/选择菜单 |
| 8 | block-nav |
导航块/导航栏 |
| 9 | block-sidebar |
侧边栏块 |
| 10 | block-footer |
页脚块 |
| 11 | block-form |
表单容器块 |
| 12 | block-table |
表格容器块 |
| 13 | block |
通用结构块 |
类别分布
| ID | 名称 | 数量 | 百分比 |
|---|---|---|---|
| 0 | button |
113,089 | 8.56% |
| 1 | link |
626,321 | 47.40% |
| 2 | input |
18,520 | 1.40% |
| 3 | image |
184,878 | 13.99% |
| 4 | icon |
185,215 | 14.02% |
| 5 | checkbox |
42,887 | 3.25% |
| 6 | radio |
4,431 | 0.34% |
| 7 | select |
20,179 | 1.53% |
| 8 | block-nav |
11,424 | 0.86% |
| 9 | block-sidebar |
3,712 | 0.28% |
| 10 | block-footer |
9,058 | 0.69% |
| 11 | block-form |
2,109 | 0.16% |
| 12 | block-table |
697 | 0.05% |
| 13 | block |
98,714 | 7.47% |
生成流程
- HTML 生成:对于每个 Mind2Web 截图提示,Qwen3.6-plus 生成相应的语义 HTML 布局,显式地将目标元素注入
yolo-*CSS 类。 - 图像注入:CC3M 图像通过语义匹配(经由 FAISS + sentence-transformers)到 LLM 生成的
data-caption属性,并注入到 HTML<img>标签中。 - 渲染与提取:Playwright 渲染完整的 HTML 页面(捕获原始可滚动高度)。元素坐标通过 JavaScript DOM 查询(
getBoundingClientRect)以编程方式提取。 - 标签格式化:绝对像素坐标被转换为归一化的 YOLO 格式。
使用示例
使用 Ultralytics YOLO 的训练脚本示例: python from ultralytics import YOLO model = YOLO(yolo26m.pt) model.train(data=/path/to/yolo-dataset/data.yaml, epochs=80, mosaic=0)
局限性
作为一个合成生成的数据集,AtomBlock-WebUI 存在以下限制:
- 语义脱节:虽然 FAISS 检索注入了上下文相关的图像,但周围文本与注入的 CC3M 图像之间偶尔可能出现不匹配。
- 分布偏移:LLM 生成的 HTML 布局虽然在结构上合理,但可能缺乏边缘情况生产网站中存在的 DOM 复杂性(例如,深度嵌套的通用
<div>包装器)或特定的视觉杂乱。
许可与使用条款
- 本合成数据集根据 CC BY-NC-SA 4.0 许可证发布,仅用于非商业研究目的。
- 使用本数据集需遵守 Mind2Web 的限制(受负责任 AI 许可证 RAIL 约束),包括严格禁止将此数据用于恶意自动化、网络钓鱼或欺骗性生成。
- 注入的图像来源于 Conceptual Captions 3M。结构配对“按原样”提供,不提供任何保证。
引用
如果研究中使用此数据集,请引用: bibtex @misc{atomblock-webui, title={AtomBlock-WebUI: A Synthetic Web UI Dataset with Pixel-Perfect Annotations}, author={Zhihao Nan}, year={2026}, howpublished={url{https://huggingface.co/datasets/ZhihaoNan/AtomBlock-WebUI}} }




