ui-caption-prototype

Hugging Face2025-04-20 更新2025-04-21 收录

下载链接：

https://huggingface.co/datasets/aryanbaghel/ui-caption-prototype

下载链接

链接失效反馈

官方服务：

资源简介：

UI标注数据集（原型版）包含900张移动UI屏幕截图，每张截图都有详细的Markdown格式标注。标注内容包括布局、颜色十六进制代码、字体样式、间距和层次结构。

创建时间：

2025-04-20

搜集汇总

数据集介绍

构建方式

在界面设计与人机交互研究领域，ui-caption-prototype数据集通过系统化采集与标注流程构建而成。研究团队采用Qwen-VL多模态模型对900组移动端UI界面截图进行自动化解析，生成包含布局结构、色彩编码、字体样式、间距参数及视觉层级关系的结构化描述文本，所有标注均以标准化markdown格式存储，确保数据可读性与可扩展性。

特点

该数据集显著特征体现在其细粒度的多模态标注体系，每个UI样本不仅包含视觉元素的空间分布信息，还精确记录了色彩参数（HEX编码）、排版特征等设计元数据。区别于常规图像描述数据集，其标注文本深度融合了设计语义与视觉特征，为界面理解与生成任务提供了丰富的跨模态对齐样本。

使用方法

该数据集主要服务于界面智能生成与辅助设计研究，研究者可通过解析markdown标注重建UI设计参数，或将其作为多模态预训练数据。典型应用场景包括：训练界面描述生成模型时作为监督信号，构建设计规范检查工具时作为参考标准，或用于评估跨模态检索模型在UI领域的性能表现。

背景与挑战

背景概述

UI Captioning Dataset (Prototype) 是专为移动用户界面（UI）视觉语言模型训练而构建的新型数据集，由前沿研究团队于近期开发完成。该数据集包含900张移动UI截图，每张截图均配有详尽的Markdown格式标注，涵盖布局结构、色彩编码、字体样式、间距设计以及视觉层级等核心要素。作为UI理解领域的重要资源，该数据集通过结合Qwen-VL多模态模型的生成能力，致力于解决界面元素语义解析与自然语言描述之间的映射难题，为人机交互、无障碍设计及自动化UI测试等应用场景提供关键数据支撑。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，如何精准捕捉UI界面中动态变化的视觉语义关系，包括响应式布局的适应性描述、跨平台设计语言的差异性表达等核心问题亟待突破；在构建过程层面，标注系统的设计需平衡细粒度要素覆盖与标注效率，色彩编码的客观性与主观设计意图的转译矛盾，以及多模态生成模型在UI专业领域存在的幻觉输出控制等实际困难，均为数据集质量提升的关键瓶颈。

常用场景

经典使用场景

在界面设计智能化研究领域，ui-caption-prototype数据集为训练视觉-语言模型提供了关键支持。该数据集包含900张移动端UI截图及结构化标注，涵盖布局、色彩、字体等多维度设计要素，特别适用于开发能够理解界面设计语义的深度学习模型。研究者通过分析截图与标注的对应关系，可建立从视觉特征到设计语言的映射模型。

衍生相关工作

该数据集已催生多个界面理解领域的重要研究。部分工作聚焦于多模态设计知识嵌入，将视觉特征与标注文本联合建模；另有研究探索跨平台设计模式迁移，利用数据集建立移动端与Web端的设计元素对应关系；最新进展则尝试结合生成式AI，实现从文本描述到界面设计的端到端生成。

数据集最近研究