RICO-Screen2Words-Rename

Hugging Face2025-04-08 更新2025-04-09 收录

下载链接：

https://huggingface.co/datasets/Billyyer/RICO-Screen2Words-Rename

下载链接

链接失效反馈

官方服务：

资源简介：

Screen2Words数据集是一个提供移动屏幕摘要（即移动屏幕的图像字幕）的数据集，它使用RICO图像数据库。该数据集由Google Research、UIUC、Northwestern和Toronto大学合作整理，并由Google Research提供资金。数据集包含屏幕ID、图像、应用包名、类别、平均评分等多种信息，并分为训练集、验证集和测试集，用于开发移动屏幕的多模态自动化。

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

RICO-Screen2Words-Rename数据集构建于RICO移动应用截图数据库之上，通过专业标注团队对界面内容进行多模态语义标注。数据源来自Google Play Store近9800款免费应用的Android屏幕截图，经筛选保留视图层次结构完整的样本。85名专业标注人员采用标准化流程，为每个屏幕生成简洁的文本摘要，形成图像-文本配对数据。标注过程严格质量控制，确保摘要准确反映界面功能和设计意图。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用预定义train/val/test分割开展多模态学习。典型应用包括：使用图像编码器与文本解码器构建端到端界面摘要模型；结合语义标注JSON训练界面元素识别系统；基于多描述文本开发界面检索算法。数据集提供标准PyTorch接口，图像与文本数据可同步加载。建议预处理时对语义标注JSON进行解析，利用视图层次结构增强模型对界面组件的理解能力。

背景与挑战

背景概述

RICO-Screen2Words-Rename数据集由Google Research、UIUC、西北大学和多伦多大学联合开发，旨在为移动界面提供自动化摘要功能。该数据集基于RICO图像数据库，通过多模态学习技术将移动屏幕截图转化为简洁的文字描述。其核心研究问题聚焦于如何利用计算机视觉与自然语言处理的交叉技术，实现对移动用户界面的智能理解与概括。自2021年发布以来，该数据集已成为移动应用界面自动化分析领域的重要基准，推动了屏幕阅读器增强、界面检索等应用场景的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，移动界面元素的多样性和动态布局导致准确摘要生成困难，需解决视觉元素与语义描述间的复杂映射关系；在构建过程中，需处理RICO原始数据中不完整或不准确的视图层次结构，同时确保85名专业标注者产生的文本摘要具有一致性和高质量。多模态数据的对齐与融合，以及跨应用类别的泛化能力，亦是该数据集需持续优化的关键问题。

常用场景

经典使用场景

在移动应用界面设计与自动化领域，RICO-Screen2Words-Rename数据集为研究人员提供了丰富的多模态学习资源。该数据集通过结合屏幕截图与文本描述，支持自动生成移动界面的自然语言摘要，为界面理解与交互设计提供了重要基础。其经典使用场景包括训练深度学习模型，实现从视觉元素到语义描述的端到端映射，从而推动界面自动化分析技术的发展。

解决学术问题

该数据集有效解决了移动界面语义理解中的关键学术问题。通过提供大量标注数据，它填补了界面视觉特征与语言描述之间的鸿沟，为多模态学习研究提供了基准。其意义在于促进了自动界面摘要、无障碍辅助技术等方向的发展，同时为界面设计评估提供了量化依据，对提升人机交互效率具有深远影响。

实际应用

在实际应用层面，该数据集支撑了多项具有实用价值的技术开发。基于其构建的系统可应用于智能屏幕阅读器开发，帮助视障用户理解界面内容；在应用商店优化中，自动生成的界面描述能提升应用检索效率；此外，对话式移动应用的开发者也利用该数据集训练更自然的界面交互模型。

数据集最近研究