UICaption

github2022-11-29 更新2024-05-31 收录

下载链接：

https://github.com/microsoft/UICaption

下载链接

链接失效反馈

官方服务：

资源简介：

UICaption数据集包含UI图像（图标和截图）及其功能描述。该数据集用于训练Lexi模型，这是一个用于UI语言理解的预训练视觉和语言模型。

The UICaption dataset comprises UI images (icons and screenshots) along with their functional descriptions. This dataset is utilized for training the Lexi model, a pre-trained visual and language model designed for UI language comprehension.

创建时间：

2022-09-28

原始信息汇总

UICaption 数据集概述

UICaption 数据集包含与UI图像配对的功能描述文本。此数据集用于训练Lexi模型，该模型是一个用于UI语言理解的预训练视觉和语言模型。数据集和模型在论文《Lexi: Self-Supervised Learning of the UI Language》中由Pratyay Banerjee, Shweti Mahajan, Kushal Arora, Chitta Baral, 和 Oriana Riva提出。

数据集生成流程

爬取图像和文本：
- 使用tech_urls.txt中提供的支持网站列表，从网页中提取UI图像及其描述。
- 命令示例：python crawl_uidata.py -i tech_urls.txt -o crawled_uidata
- 输出文件包括：ui_images.p, ui_alt_texts.csv, ui_instructions_preceding.csv, 和 ui_instructions_succeeding.csv。
下载UI图像：
- 命令示例：python download_images.py -i crawled_uidata/ui_images.txt
生成图像-文本对：
- 使用爬取的UI数据组装UICaption数据集。
- 命令示例：python gen_uicaption_dataset.py -i crawled_uidata -o ui_caption_dataset.json
- 输出JSON文件格式：
  - image_path: UI图像存储路径
  - alt_text_list: 与UI图像关联的一个或多个alt文本
  - instruction_list: 与UI图像关联的一个或多个指令

引用信息

如使用此数据集，请引用以下论文： bibtex @inproceedings{oriva:lexi22, title = {Lexi: Self-Supervised Learning of the UI Language}, author = {Pratyay Banerjee and Shweti Mahajan and Kushal Arora and Chitta Baral and Oriana Riva}, publisher = {Association for Computational Linguistics}, booktitle = {Proc. of the 2022 Conference on Empirical Methods in Natural Language Processing}, year = {2022}, month = {December} }

搜集汇总

数据集介绍

构建方式

UICaption数据集的构建过程始于从技术支持网站中爬取用户界面（UI）图像及其功能描述。通过执行`crawl_uidata.py`脚本，从`tech_urls.txt`中列出的网站中提取UI图像和相关文本，生成包含图像URL、替代文本及前后文指令的文件。随后，使用`download_images.py`脚本下载这些图像，并通过`gen_uicaption_dataset.py`脚本将图像与文本配对，生成最终的UICaption数据集。该数据集以JSON格式存储，每个UI图像可能关联多个替代文本和指令。

特点

UICaption数据集的核心特点在于其丰富的图像-文本对，这些对不仅包括UI图像的替代文本，还涵盖了图像在网页中出现前后的相关指令。这种多层次的文本信息为理解UI的功能和上下文提供了全面的视角。此外，由于同一UI图像可能出现在多个网站中，数据集中的每个图像可能关联多个描述，增强了数据的多样性和实用性。

使用方法

使用UICaption数据集时，首先需通过提供的脚本从技术支持网站中爬取数据并下载图像。随后，利用`gen_uicaption_dataset.py`脚本生成图像-文本对的JSON文件。该文件结构清晰，包含图像路径、替代文本列表和指令列表，便于研究人员直接用于训练或评估UI语言理解模型。数据集的使用需遵循研究目的，并引用相关论文以尊重知识产权。

背景与挑战

背景概述

UICaption数据集由Pratyay Banerjee、Shweti Mahajan、Kushal Arora、Chitta Baral和Oriana Riva等研究人员于2022年发布，旨在为UI语言理解提供支持。该数据集包含大量UI图像及其功能描述，用于训练Lexi模型，该模型是一种预训练的视觉与语言模型，专注于UI语言的自我监督学习。UICaption的发布标志着UI语言理解领域的一个重要进展，为研究人员提供了丰富的资源，以探索UI图像与其功能描述之间的复杂关系。该数据集在2022年计算语言学协会（ACL）的实证方法自然语言处理会议（EMNLP）上首次亮相，并迅速成为UI语言理解研究的重要基准。

当前挑战

UICaption数据集在构建过程中面临多重挑战。首先，UI图像与其功能描述的对应关系复杂多样，如何准确提取并匹配这些描述成为一大难题。其次，数据集的构建依赖于从技术支持网站爬取UI图像和相关文本，这一过程中需要处理大量异构数据，并确保数据的完整性和一致性。此外，由于同一UI图像可能出现在多个网站中，如何有效整合多源数据并避免冗余信息也是构建过程中的关键挑战。最后，UI语言理解本身具有高度的领域特异性，如何设计有效的模型以捕捉UI图像与语言之间的深层次关联，仍然是该领域亟待解决的核心问题。

常用场景

经典使用场景

UICaption数据集在用户界面（UI）语言理解领域具有重要应用，特别是在自动化UI描述生成和功能理解方面。通过将UI图像与其功能描述配对，该数据集为训练视觉和语言模型提供了丰富的资源。Lexi模型便是基于此数据集进行预训练，展示了其在理解和生成UI相关语言任务中的卓越性能。

解决学术问题

UICaption数据集解决了UI语言理解中的关键问题，如自动化生成UI描述、功能解释以及跨模态（视觉与语言）的语义对齐。通过提供大量UI图像与文本的配对数据，研究者能够开发出更精确的模型，用于理解复杂的UI结构和功能，从而推动人机交互和自动化测试领域的发展。

衍生相关工作

UICaption数据集催生了一系列相关研究，特别是在UI语言理解和跨模态学习领域。Lexi模型是该数据集最著名的衍生工作之一，展示了自监督学习在UI语言理解中的潜力。此外，该数据集还被用于开发其他跨模态模型，如UI图像生成和文本到UI的转换工具，进一步拓展了其应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集