UI-Bench

Name: UI-Bench
Creator: 宾夕法尼亚大学和AfterQuery
Published: 2025-08-29 10:06:36
License: 暂无描述

arXiv2025-08-29 更新2025-08-30 收录

下载链接：

https://erboard

下载链接

链接失效反馈

官方服务：

资源简介：

UI-Bench是一个用于评估AI文本到应用工具设计能力的基准数据集。该数据集包含了由10个工具生成的30个提示和300个网站，以及4000多个专家的判断。UI-Bench使用TrueSkill模型对系统进行排名，并提供了一个可复制的标准，以推动AI驱动的网页设计。数据集的生成网站将由参与者进行评级并公开发布。

UI-Bench is a benchmark dataset for evaluating the design capabilities of AI text-to-application tools. This dataset includes 30 prompts, 300 websites generated by 10 tools, and over 4,000 expert judgments. UI-Bench utilizes the TrueSkill model to rank systems, and provides a replicable standard to advance AI-driven web design. The websites generated from this dataset will be rated by participants and publicly released.

提供机构：

宾夕法尼亚大学和AfterQuery

创建时间：

2025-08-28

搜集汇总

数据集介绍

构建方式

UI-Bench的构建采用系统性协议，涵盖10款主流AI文本转应用工具、30个标准化提示词及300个生成站点。通过专家双盲对比评估机制，设计者需在完整视图中对随机排列的界面进行二选一偏好判断，所有比较均隐藏工具身份以避免偏见。评估框架基于TrueSkill贝叶斯评分模型，从4075组有效对比数据中计算工具排名并生成95%置信区间，确保统计可靠性。

特点

该数据集的核心特点在于其专业性与可复现性：所有评估均由194名具备UI/UX设计、开发或研究背景的专家完成，严格遵循客户端交付情境的评判标准。覆盖营销落地页、博客编辑、作品集、电商及本地服务五大类别，兼顾网站与Web应用两种类型。其评估结果揭示了AI工具在视觉层次、色彩规划、排版系统及交互完整性方面的显著差异，为行业提供了首个基于专业审美标准的量化排名体系。

使用方法

使用者可通过公开的提示词集、开源评估框架及在线排行榜复现或扩展该基准测试。研究团队建议采用相同的双盲对比协议，要求评估者在全屏模式下审阅完整页面后回答“哪个设计更可能交付给客户”的强制选择题。TrueSkill模型可处理稀疏对比数据并生成带置信区间的技能评分，适用于跨工具、跨提示词的动态性能分析。生成的所有站点数据及专家评分后续将公开，支持细粒度视觉质量研究。

背景与挑战

背景概述

UI-Bench由宾夕法尼亚大学与AfterQuery研究团队于2025年联合推出，是首个针对AI文本转应用工具设计能力的大规模基准测试。该数据集通过专家双盲对比评估，系统性地衡量AI生成界面的视觉设计质量，涵盖10种主流工具、30类提示词生成的300个网站样本及4000余次专业评判。其核心研究在于解决低代码开发领域中AI工具输出质量缺乏客观评估标准的问题，采用TrueSkill贝叶斯评分模型构建排名体系，为AI驱动的前端设计提供了可复现的评估范式，对人机交互与自动化开发领域具有标杆意义。

当前挑战

该数据集主要应对两大挑战：其一是领域问题层面，需解决AI生成界面美学质量主观性强、缺乏统一评估标准的核心难题，传统自动化指标（如FID、CLIP）与人类审美偏好存在显著偏差；其二是构建过程中需克服专家评估一致性低、社会从众效应干扰等技术瓶颈，通过标准化提示词生成、全屏浏览强制机制及随机化双盲对比实验设计，确保评估结果的可靠性与可复现性。

常用场景

经典使用场景

在人工智能驱动的网页设计领域，UI-Bench作为首个大规模基准测试工具，通过专家双盲对比评估不同文本到应用生成工具的视觉设计质量。该数据集覆盖10种主流工具、30类标准化提示词及300个生成站点，采用经过4000余次专业评判的TrueSkill模型进行系统排名，为跨平台设计能力比较提供了可重复的标准化协议。

实际应用

该数据集已应用于企业级设计工具选型、自动化界面生成流水线优化以及用户体验研究平台建设。科技公司依托其排名结果指导产品开发策略，设计机构采用其评估框架进行客户交付物质量管控，教育机构则将其作为人机交互课程中量化评估标准的教学案例，实际提升了行业对AI生成内容的质量监控能力。

衍生相关工作

基于UI-Bench的评估方法论，研究者开发了WebGen-Bench等扩展基准测试体系，推动了自动化导航代理与功能验证技术的发展。其双盲评估协议被Adaptive GUI Benchmark继承用于跨设备界面评估，TrueSkill排名模型则启发了新一代设计质量预测算法的开发，形成了一系列关于多模态模型输出质量评估的衍生研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集