Click-100k

Hugging Face2025-11-10 更新2025-11-10 收录

下载链接：

https://huggingface.co/datasets/mlfoundations/Click-100k

下载链接

链接失效反馈

官方服务：

资源简介：

Click-100k是一个用于训练GUI计算机使用任务的grounding模型的高质量数据集。它包含计算机屏幕帧与低级别GUI命令和点击坐标的配对，旨在帮助模型学习UI元素的精确定位与交互。数据集通过筛选和整合多个公共数据集以及加入专业应用数据而创建。

Click-100k is a high-quality dataset for training grounding models on GUI computer usage tasks. It contains paired computer screen frames, low-level GUI commands and click coordinates, aiming to help models learn accurate positioning and interaction of UI elements. This dataset is created by filtering and integrating multiple public datasets, as well as incorporating professional application data.

创建时间：

2025-10-27

原始信息汇总

Click-100k数据集概述

数据集基本信息

数据集名称：Click-100k
创建机构：mlfoundations
用途：训练GUI计算机使用任务的接地模型
训练模型：Gelato-30B-A3B
数据量：101,314个训练样本
数据集大小：29.93 GB（下载大小），31.58 GB（解压后大小）

数据集结构

数据特征

image_path：截图图像的相对路径（字符串）
images：包含PIL图像对象的列表
easyr1_prompt：接地任务的指令提示，包含系统指令和目标UI元素的自然语言描述（字符串）
bbox：边界框坐标，格式为[x_min, y_min, x_max, y_max]（4个整数的列表）
image_width：截图宽度（像素，整数）
image_height：截图高度（像素，整数）
normalized_bbox：归一化边界框坐标，范围[0,1]（4个浮点数的列表）

数据实例示例

python { image_path: showui-desktop-images/showui_desktop_004594.jpg, images: [<PIL.Image>], easyr1_prompt: You are an expert UI element locator..., bbox: [72, 183, 322, 232], image_width: 1960, image_height: 1092, normalized_bbox: [0.036734693877551024, 0.16758241758241757, 0.16428571428571428, 0.21245421245421245] }

数据集创建

数据来源

ShowUI（Web/Desktop）
AutoGUI
PC-Agent-E
WaveUI
OS-Atlas
UGround
PixMo Points
SeeClick
UI-VISION
Jedi（电子表格和文本单元格操作子集）
85个专业应用教程视频（Claude 4 Sonnet标注）

质量控制流程

归一化处理：将所有接地数据源转换为统一格式
源平衡：每个源最多50,000个实例
噪声过滤：
- 使用OmniParser丢弃在检测到的UI元素之外的点击
- 使用Qwen2.5-7B-VL移除过于简单的示例
- 使用GTA1-7B-2507过滤未对齐的样本
- 移除边界框过大（>5%屏幕面积）的样本

性能表现

ScreenSpot-Pro：63.88%
OS-World-G：69.15%
OS-World-G（精炼版）：74.65%

引用信息

bibtex @misc{gelato2025, title={Gelato — From Data Curation to Reinforcement Learning: Building a Strong Grounding Model for Computer-Use Agents}, author={Anas Awadalla, Dhruba Ghosh, Aylin Akkus, Yuhui Zhang, Marianna Nezhurina, Jenia Jitsev, Yejin Choi, Ludwig Schmidt}, year={2025}, publisher={GitHub}, howpublished={url{https://github.com/mlfoundations/gelato}}, }

搜集汇总

数据集介绍

构建方式

在图形用户界面交互研究领域，Click-100k数据集通过多源融合与精细过滤的构建策略实现了质的飞跃。该数据集整合了ShowUI、AutoGUI等十二个公开数据集及专业应用教程视频，采用统一格式转换与源平衡机制，每个数据源最多保留五万个实例以避免分布偏斜。构建过程中运用了多层级质量控制：通过OmniParser剔除界面元素外的无效点击，借助Qwen2.5-7B-VL过滤简单样本，利用GTA1-7B-2507消除指令与目标区域错位案例，并排除屏幕占比超过5%的异常边界框，最终形成包含十万余样本的高质量GUI定位数据集。

使用方法

该数据集主要服务于GUI定位模型的训练与评估，研究者可通过HuggingFace平台直接加载标准化数据。每个训练实例包含图像张量、自然语言提示文本及四维边界框标签，支持端到端的视觉语言联合训练。在使用过程中建议遵循原始数据划分方案，注意部分来源数据因标注模糊需在强化学习阶段排除。典型应用流程包括解析easyr1_prompt中的系统指令与用户描述，将归一化坐标转换为实际像素位置，最终输出目标UI元素的中心点坐标以实现精准交互。

背景与挑战

背景概述

在图形用户界面智能交互研究领域，Click-100k数据集由ML Foundations团队于2025年构建，旨在解决视觉语言模型对界面元素的精确定位问题。该数据集整合了ShowUI、AutoGUI等十余个公开数据集，并引入专业应用教程的标注数据，通过系统化过滤与标准化处理形成十万余条高质量样本。其核心研究聚焦于将自然语言指令映射为具体界面坐标的跨模态理解任务，为Gelato-30B-A3B等前沿模型提供训练基础，显著提升了在ScreenSpot-Pro等基准测试中的交互准确率，推动图形界面智能代理向实用化发展。

当前挑战

图形用户界面定位任务面临多重挑战：原始数据中存在指令与目标区域语义偏离的错位问题，简单交互样本占比过高导致模型泛化能力不足，专业应用场景覆盖有限制约实际部署效果。构建过程中需应对异构数据格式的统一转换，通过OmniParser工具剔除界面元素外的无效点击，采用多轮视觉语言模型过滤去除边界框过大的样本，并对标注模糊的SeeClick等数据集进行专项清理，最终在数据平衡与质量管控间建立有效权衡机制。

常用场景

经典使用场景

在图形用户界面智能体研究领域，Click-100k数据集通过融合多源屏幕截图与精确坐标标注，为训练视觉-语言-动作模型提供了标准化实验平台。该数据集特别适用于开发能够理解自然语言指令并精确定位界面元素的智能系统，其标注的边界框与归一化坐标为模型学习空间推理提供了结构化监督信号。

解决学术问题

该数据集有效解决了传统GUI数据集中存在的三大核心问题：交互行为过于简单导致的模型泛化能力不足，文本指令与目标区域语义脱节造成的对齐偏差，以及专业应用场景覆盖有限形成的领域鸿沟。通过严格的过滤机制与多源数据融合，显著提升了界面元素定位任务的准确性与鲁棒性，为构建实用化计算机使用智能体奠定了数据基础。

实际应用

基于该数据集训练的Gelato模型已在自动化办公、无障碍交互等场景展现价值。系统能够根据自然语言描述精准操作各类专业软件界面，例如在电子表格中定位特定单元格或于设计软件中选取工具菜单。这种能力进一步推动了智能助手在复杂工作流中的实际部署，降低了非技术用户操作专业软件的门槛。

数据集最近研究