CLAY dataset

Name: CLAY dataset
Creator: 谷歌研究院
Published: 2022-01-14 01:53:31
License: 暂无描述

arXiv2022-01-14 更新2024-06-21 收录

下载链接：

https://github.com/google-research/googleresearch/tree/master/clay

下载链接

链接失效反馈

官方服务：

资源简介：

CLAY数据集是由谷歌研究院基于公开的Rico移动UI语料库创建的，包含59,555个人工标注的屏幕布局。该数据集通过移除无效节点并对每个节点分配语义上有意义的类型，来清理原始UI布局。CLAY数据集主要用于数据驱动的移动UI研究和减少手动标注的成本，旨在解决现有移动UI数据集中存在的无效对象和对象类型不明确的问题。

The CLAY dataset was developed by Google Research using the publicly available Rico mobile UI corpus, and consists of 59,555 manually annotated screen layouts. It preprocesses the raw UI layouts by removing invalid nodes and assigning semantically meaningful types to each individual node. Primarily designed for data-driven mobile UI research and reducing the cost of manual annotation, the CLAY dataset aims to address the issues of invalid objects and ambiguous object types present in existing mobile UI datasets.

提供机构：

谷歌研究院

创建时间：

2022-01-12

搜集汇总

数据集介绍

构建方式

在移动用户界面研究领域，高质量的数据集是推动界面语义理解与设计创新的基石。CLAY数据集的构建基于公开的Rico移动UI语料库，通过精心设计的标注流程实现。研究团队首先对原始视图层次进行预处理，剔除尺寸异常或重复的边界框，随后邀请15名众包工作者对59,555个屏幕进行人工标注。标注过程中，每个界面元素被赋予一个语义明确的类型标签，或标记为无效对象，并通过多轮投票与抽样审计确保标注质量，最终形成了包含22种对象类型的清洁布局数据集。

特点

CLAY数据集的核心特点在于其针对移动UI布局中常见噪声问题的系统性修正。该数据集不仅标注了视觉上无效的对象，如错位或不可见的界面元素，还引入了一套经过优化的语义类型分类体系，将原本过于泛化或应用特定的对象类型映射为更具解释性的类别。数据分布呈现典型的长尾特征，涵盖了从常见的文本、容器到罕见的日期选择器、地图等多种界面元素，为模型训练提供了丰富的多样性。此外，数据集的构建严格遵循包级别划分原则，有效避免了信息泄漏，提升了评估的可靠性。

使用方法

该数据集主要服务于移动用户界面的去噪与语义理解任务。研究人员可利用CLAY数据集训练深度学习模型，如基于ResNet的无效对象检测模型，或结合图神经网络与Transformer的物体类型识别模型，以自动化清洗大规模UI布局数据。清洗后的布局可直接用于下游任务，如界面组件检测、屏幕嵌入或小部件描述生成，为数据驱动的界面设计研究提供高质量的基础。同时，数据集本身也可作为评估新型去噪或解析模型的基准，推动移动UI分析领域的算法进步。

背景与挑战

背景概述

在移动应用界面设计研究领域，用户界面布局是支撑语义理解与机器学习应用的关键数据源。然而，现有数据集中的原始布局常因运行时捕获而存在噪声，导致视觉表示与结构信息失配，或包含大量通用或应用特定的无效类型，严重制约了数据驱动的界面研究。为应对此挑战，谷歌研究院的Gang Li、Manuel Tragut等学者于2022年提出了CLAY数据集，该数据集基于公开的Rico移动界面语料库，通过人工标注构建了包含59,555个屏幕布局的大规模高质量样本。其核心研究在于利用深度学习管道自动去噪原始布局，通过检测无效对象并赋予语义化类型，为界面解析、组件检测等下游任务奠定了坚实的数据基础，显著提升了移动界面数据集的可用性与规模。

当前挑战

CLAY数据集致力于解决移动用户界面布局解析与语义标注的核心挑战。在领域层面，其首要挑战在于如何从噪声严重的原始布局中准确识别视觉无效对象（如不可见、错位或背景灰化元素），并克服对象类型过于通用或高度特定化所带来的语义模糊问题，这直接影响了界面理解、组件检测等任务的模型性能。在构建过程中，挑战体现为大规模人工标注的可行性与一致性：需设计兼顾视觉相似性与功能差异的类型分类体系，并处理原始Rico数据中高达9,331种安卓类名带来的长尾分布；同时，标注需在截图与布局间进行精细对齐，以应对约37.4%屏幕包含无效对象的复杂情况，确保标注结果兼具可扩展性与高可靠性。

常用场景

经典使用场景

在移动用户界面设计与语义理解的研究领域，CLAY数据集为大规模、高质量的UI布局数据提供了基准。该数据集的核心应用场景在于训练和评估深度学习模型，以自动清洗原始移动UI布局中的噪声。具体而言，研究者利用CLAY中经过人工标注的59,555个屏幕布局，开发能够检测无效对象并识别对象语义类型的模型，如基于ResNet的无效对象检测模块以及结合图神经网络或Transformer的对象类型识别模块。这些模型在UI布局去噪任务中展现出高精度，为后续的UI建模任务奠定了数据基础。

衍生相关工作

围绕CLAY数据集，一系列经典研究工作得以推进，主要集中在多模态UI理解与自动数据清洗方向。例如，基于CLAY标注的屏幕布局，研究者发展了Screen2Vec等屏幕语义嵌入模型，用于界面检索与相似性分析；同时，CLAY启发了如UIBert等多模态预训练模型，支持图标分类、应用类型预测等任务。在数据清洗方法上，CLAY采用的GNN与Transformer架构为后续布局解析模型提供了参考，部分工作进一步探索了结合目标检测解码器的端到端布局重建，扩展了自动UI修复的能力边界。

数据集最近研究