UICrit

Name: UICrit
Creator: 加州大学伯克利分校
Published: 2024-07-12 04:18:19
License: 暂无描述

arXiv2024-07-12 更新2024-07-16 收录

下载链接：

https://github.com/TBD

下载链接

链接失效反馈

官方服务：

资源简介：

UICrit数据集由加州大学伯克利分校的研究团队创建，包含3,059条自然语言设计批评和质量评级，针对983个移动UI屏幕。数据集的创建过程涉及七位经验丰富的设计师，他们根据既定的设计指南和个人的设计经验提供批评和评级。每个批评包括对UI屏幕相关区域的边界框标注，以及美学、可用性和整体设计质量的数值评级。数据集的应用领域主要是在自动化设计评估中，通过提供高质量的设计反馈来改进LLM生成的UI反馈，从而提高设计效率和质量。

The UICrit dataset was developed by a research team at the University of California, Berkeley, and consists of 3,059 natural language design critiques and quality ratings for 983 mobile UI screens. The dataset creation process involved seven experienced designers, who provided critiques and ratings based on established design guidelines and their individual design expertise. Each critique includes bounding box annotations for the relevant regions of the corresponding UI screen, alongside numerical ratings for aesthetics, usability, and overall design quality. The primary application domain of this dataset is automated design evaluation, where it can provide high-quality design feedback to improve the UI feedback generated by Large Language Models (LLMs), thereby enhancing design efficiency and quality.

提供机构：

加州大学伯克利分校

创建时间：

2024-07-12

搜集汇总

数据集介绍

构建方式

UICrit数据集的构建过程涉及收集来自七位经验丰富的设计师的3,059条设计评论和983个移动UI的质量评分。数据收集通过一个精心设计的协议进行，确保了设计反馈和评分的准确性。为了帮助上下文化反馈，每个评论都包含一个边界框，突出显示UI屏幕中相关的区域，数据集还包括每个UI屏幕的美学、可用性和整体设计质量的数值评分。

使用方法

UICrit数据集的使用方法包括：1) 应用数据集进行小样本训练和视觉提示，以提高大型语言模型生成的UI反馈质量；2) 使用数据集训练一个奖励模型，用于预测生成UI模型的评论和质量评分；3) 使用数据集微调一个工具无关的多模态大型语言模型，以自动化UI评估。

背景与挑战

背景概述

UICrit数据集是一项针对移动用户界面（UI）设计评估的自动化方法的研究成果。该数据集由加州大学伯克利分校和谷歌DeepMind的研究人员于2024年创建，旨在提高基于大型语言模型（LLM）的UI评估的性能。UICrit数据集包含了983个移动UI的设计评论和3,059个质量评分，这些数据由七位经验丰富的设计师提供。研究人员通过深度分析，揭示了数据集的特征，并将其应用于提高LLM生成的UI反馈性能，实现了55%的性能提升。该数据集的创建对于推动自动化设计评估技术的发展具有重要意义，有望在未来被广泛应用于UI生成模型的奖励模型训练和工具无关的多模态LLM的微调。

当前挑战

尽管UICrit数据集在提高自动化设计评估方面取得了显著进展，但仍面临一些挑战。首先，LLM-based UI评估的性能尚未达到人类评估者的水平，需要进一步研究和改进。其次，数据集的构建过程中，研究人员面临着如何确保设计评论和评分的准确性和可靠性的挑战。此外，由于数据集由七位设计师提供，评论的多样性可能受到限制。最后，数据集只包含针对单个UI屏幕的评论，缺乏对整个应用程序或用户体验流程的反馈。未来的研究方向包括进一步扩展数据集的多样性，探索LLM在不同输入模式下的性能，以及评估自动化设计反馈在实际设计实践中的应用效果。

常用场景

经典使用场景

UICrit数据集被广泛用于自动设计评估，特别是在比较不同的用户界面(UI)设计或进行自动启发式评估方面。基于LLM的UI评估，尤其是其泛化能力，对于各种UI类型和评估任务具有巨大的潜力。然而，目前的LLM技术尚未达到人类评估者的性能水平。UICrit数据集通过收集针对性的UI反馈数据，并使用该数据集来提升通用LLM的性能，为自动评估提供了改进的可能性。

解决学术问题

UICrit数据集解决了当前LLM技术在进行UI反馈生成时性能不足的问题。通过收集来自七位经验丰富设计师的3,059个设计评论和质量评分，以及983个移动UI的截图，该数据集为LLM提供了丰富的学习素材，使得LLM能够在UI评估方面取得显著的性能提升。此外，该数据集还揭示了UI设计中的一些常见问题，如布局、颜色对比、文本可读性、按钮可用性等，为学术研究提供了有价值的数据资源。

实际应用

UICrit数据集在实际应用场景中具有广泛的应用前景。例如，它可以被用于训练奖励模型，以预测生成式UI技术的设计评论和数值设计质量评分。此外，该数据集还可以用于微调工具无关的多模态LLM，使其能够自动评估UI。这些应用场景的实现将极大地提高设计过程的效率和效果，为设计师提供更及时、更准确的反馈，从而推动UI设计领域的进一步发展。

数据集最近研究