rootsautomation/RICO-ScreenAnnotation

Name: rootsautomation/RICO-ScreenAnnotation
Creator: rootsautomation
Published: 2024-04-22 15:54:05
License: 暂无描述

Hugging Face2024-04-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/rootsautomation/RICO-ScreenAnnotation

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个图像到文本注释格式的数据集，首次在Google的ScreenAI论文中提出。其目的是标准化模型应遵循的合理文本输出，并将元素检测、引用表达式生成/识别和元素分类等内容融合在一起。数据集由Google Research策划，语言为英语，采用CC-BY-4.0许可。数据集包含RICO数据集中的移动屏幕截图及其注释，注释为文本格式，包含屏幕上UI元素的类型、位置、文本内容或简短描述。该数据集可用于提高多模态（图像+文本）模型的屏幕理解能力。

提供机构：

rootsautomation

原始信息汇总

数据集概述

数据集信息

名称: RICO Screen Annotations
许可证: CC-BY-4.0

数据集特征

screen_id: 数据类型为字符串
screen_annotation: 数据类型为字符串
file_name: 数据类型为字符串
image: 数据类型为图像

数据集分割

训练集 (train): 示例数量为15548，数据大小为1681700851.288字节
验证集 (valid): 示例数量为2311，数据大小为239751325.938字节
测试集 (test): 示例数量为4217，数据大小为451384183.53字节

数据集大小

下载大小: 1881652951字节
数据集总大小: 2372836360.756字节

配置文件

默认配置 (default):
- 训练数据路径: data/train-*
- 验证数据路径: data/valid-*
- 测试数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

在移动界面理解领域，RICO-ScreenAnnotation数据集以结构化方式构建，其核心源于Google Research的ScreenAI研究框架。该数据集从公开的RICO数据集中精选移动端界面截图，并配以文本化标注，标注内容涵盖界面元素的类型、位置坐标、文本内容及简要描述。构建过程中，标注格式遵循ScreenAI论文提出的标准化规范，将视觉元素检测、指代表达生成与元素分类任务融合于统一的文本输出序列，从而为多模态模型提供系统化的训练样本。

特点

该数据集具备鲜明的多模态特性，其标注体系以纯文本形式封装了丰富的界面结构信息，包括元素类型与空间位置，实现了视觉与语言表征的紧密对齐。数据规模较为可观，涵盖超过两万条样本，并划分为训练、验证与测试子集，支持模型开发与评估的全流程。此外，标注中保留的整数位置令牌为模型学习屏幕布局的几何关系提供了直接信号，增强了模型对界面元素空间分布的解析能力。

使用方法

该数据集主要用于提升多模态模型对屏幕界面与信息图表的理解能力。研究人员可直接将其用于视觉-语言模型的预训练或微调，模型接收截图图像作为输入，并学习生成对应的结构化文本标注。在使用时，需依据数据集中已划分的训练、验证和测试集进行模型训练与性能验证，以确保评估的严谨性。其标注格式的统一性也便于集成到现有的多模态学习框架中，推动界面自动化分析与交互智能的研究进展。

背景与挑战

背景概述

在移动计算与人工智能交叉领域，界面理解成为提升用户体验与自动化交互的关键。谷歌研究团队于2024年通过ScreenAI论文，基于公开的RICO数据集，构建了RICO-ScreenAnnotation数据集。该数据集旨在解决移动界面视觉语言理解的核心问题，通过标准化文本标注融合界面元素检测、指代表达生成与分类任务，为多模态模型预训练提供结构化支持，推动了界面智能解析技术的发展。

当前挑战

该数据集致力于应对移动界面视觉语言理解的复杂挑战，包括界面元素多样性与布局动态性导致的识别困难，以及文本与视觉信息融合的语义对齐问题。在构建过程中，挑战主要源于标注一致性维护，需将界面元素的位置、类型、文本内容统一为结构化文本描述，同时确保标注覆盖不同应用场景与界面风格，以支撑模型泛化能力。

常用场景

经典使用场景

在移动界面理解领域，RICO-ScreenAnnotation数据集为多模态模型提供了标准化的训练基础。其核心应用场景在于将移动端屏幕截图与结构化文本注释相结合，通过视觉语言模型学习界面元素的类型、位置及文本内容。这种配对数据使得模型能够解析复杂的用户界面布局，为自动化界面分析和交互设计奠定基础。

解决学术问题

该数据集有效解决了多模态理解中界面元素识别与描述的学术挑战。通过融合元素检测、指代表达生成和分类任务，它统一了屏幕理解的评估标准，促进了视觉语言模型在UI解析方面的性能提升。其标注体系为学术界提供了可复现的基准，推动了屏幕语义理解从传统计算机视觉向端到端多模态建模的范式转变。

衍生相关工作

以该数据集为基础，衍生出ScreenAI等标志性视觉语言模型架构。相关研究进一步拓展了屏幕问答、界面导航指令生成等任务，催生了如ScreenSpotlight、WidgetCaption等专注于界面元素关系建模的工作。这些成果共同构建了屏幕理解领域的技术体系，为后续多模态界面智能研究提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集