UICaption
收藏github2022-11-29 更新2024-05-31 收录
下载链接:
https://github.com/microsoft/UICaption
下载链接
链接失效反馈官方服务:
资源简介:
UICaption数据集包含UI图像(图标和截图)及其功能描述。该数据集用于训练Lexi模型,这是一个用于UI语言理解的预训练视觉和语言模型。
The UICaption dataset comprises UI images (icons and screenshots) along with their functional descriptions. This dataset is utilized for training the Lexi model, a pre-trained visual and language model designed for UI language comprehension.
创建时间:
2022-09-28
原始信息汇总
UICaption 数据集概述
UICaption 数据集包含与UI图像配对的功能描述文本。此数据集用于训练Lexi模型,该模型是一个用于UI语言理解的预训练视觉和语言模型。数据集和模型在论文《Lexi: Self-Supervised Learning of the UI Language》中由Pratyay Banerjee, Shweti Mahajan, Kushal Arora, Chitta Baral, 和 Oriana Riva提出。
数据集生成流程
-
爬取图像和文本:
- 使用
tech_urls.txt中提供的支持网站列表,从网页中提取UI图像及其描述。 - 命令示例:
python crawl_uidata.py -i tech_urls.txt -o crawled_uidata - 输出文件包括:
ui_images.p,ui_alt_texts.csv,ui_instructions_preceding.csv, 和ui_instructions_succeeding.csv。
- 使用
-
下载UI图像:
- 命令示例:
python download_images.py -i crawled_uidata/ui_images.txt
- 命令示例:
-
生成图像-文本对:
- 使用爬取的UI数据组装UICaption数据集。
- 命令示例:
python gen_uicaption_dataset.py -i crawled_uidata -o ui_caption_dataset.json - 输出JSON文件格式:
image_path: UI图像存储路径alt_text_list: 与UI图像关联的一个或多个alt文本instruction_list: 与UI图像关联的一个或多个指令
引用信息
如使用此数据集,请引用以下论文: bibtex @inproceedings{oriva:lexi22, title = {Lexi: Self-Supervised Learning of the UI Language}, author = {Pratyay Banerjee and Shweti Mahajan and Kushal Arora and Chitta Baral and Oriana Riva}, publisher = {Association for Computational Linguistics}, booktitle = {Proc. of the 2022 Conference on Empirical Methods in Natural Language Processing}, year = {2022}, month = {December} }
搜集汇总
数据集介绍

构建方式
UICaption数据集的构建过程始于从技术支持网站中爬取用户界面(UI)图像及其功能描述。通过执行`crawl_uidata.py`脚本,从`tech_urls.txt`中列出的网站中提取UI图像和相关文本,生成包含图像URL、替代文本及前后文指令的文件。随后,使用`download_images.py`脚本下载这些图像,并通过`gen_uicaption_dataset.py`脚本将图像与文本配对,生成最终的UICaption数据集。该数据集以JSON格式存储,每个UI图像可能关联多个替代文本和指令。
特点
UICaption数据集的核心特点在于其丰富的图像-文本对,这些对不仅包括UI图像的替代文本,还涵盖了图像在网页中出现前后的相关指令。这种多层次的文本信息为理解UI的功能和上下文提供了全面的视角。此外,由于同一UI图像可能出现在多个网站中,数据集中的每个图像可能关联多个描述,增强了数据的多样性和实用性。
使用方法
使用UICaption数据集时,首先需通过提供的脚本从技术支持网站中爬取数据并下载图像。随后,利用`gen_uicaption_dataset.py`脚本生成图像-文本对的JSON文件。该文件结构清晰,包含图像路径、替代文本列表和指令列表,便于研究人员直接用于训练或评估UI语言理解模型。数据集的使用需遵循研究目的,并引用相关论文以尊重知识产权。
背景与挑战
背景概述
UICaption数据集由Pratyay Banerjee、Shweti Mahajan、Kushal Arora、Chitta Baral和Oriana Riva等研究人员于2022年发布,旨在为UI语言理解提供支持。该数据集包含大量UI图像及其功能描述,用于训练Lexi模型,该模型是一种预训练的视觉与语言模型,专注于UI语言的自我监督学习。UICaption的发布标志着UI语言理解领域的一个重要进展,为研究人员提供了丰富的资源,以探索UI图像与其功能描述之间的复杂关系。该数据集在2022年计算语言学协会(ACL)的实证方法自然语言处理会议(EMNLP)上首次亮相,并迅速成为UI语言理解研究的重要基准。
当前挑战
UICaption数据集在构建过程中面临多重挑战。首先,UI图像与其功能描述的对应关系复杂多样,如何准确提取并匹配这些描述成为一大难题。其次,数据集的构建依赖于从技术支持网站爬取UI图像和相关文本,这一过程中需要处理大量异构数据,并确保数据的完整性和一致性。此外,由于同一UI图像可能出现在多个网站中,如何有效整合多源数据并避免冗余信息也是构建过程中的关键挑战。最后,UI语言理解本身具有高度的领域特异性,如何设计有效的模型以捕捉UI图像与语言之间的深层次关联,仍然是该领域亟待解决的核心问题。
常用场景
经典使用场景
UICaption数据集在用户界面(UI)语言理解领域具有重要应用,特别是在自动化UI描述生成和功能理解方面。通过将UI图像与其功能描述配对,该数据集为训练视觉和语言模型提供了丰富的资源。Lexi模型便是基于此数据集进行预训练,展示了其在理解和生成UI相关语言任务中的卓越性能。
解决学术问题
UICaption数据集解决了UI语言理解中的关键问题,如自动化生成UI描述、功能解释以及跨模态(视觉与语言)的语义对齐。通过提供大量UI图像与文本的配对数据,研究者能够开发出更精确的模型,用于理解复杂的UI结构和功能,从而推动人机交互和自动化测试领域的发展。
衍生相关工作
UICaption数据集催生了一系列相关研究,特别是在UI语言理解和跨模态学习领域。Lexi模型是该数据集最著名的衍生工作之一,展示了自监督学习在UI语言理解中的潜力。此外,该数据集还被用于开发其他跨模态模型,如UI图像生成和文本到UI的转换工具,进一步拓展了其应用范围。
以上内容由遇见数据集搜集并总结生成



