five

UI-Bench

收藏
arXiv2025-08-29 更新2025-08-30 收录
下载链接:
https://erboard
下载链接
链接失效反馈
官方服务:
资源简介:
UI-Bench是一个用于评估AI文本到应用工具设计能力的基准数据集。该数据集包含了由10个工具生成的30个提示和300个网站,以及4000多个专家的判断。UI-Bench使用TrueSkill模型对系统进行排名,并提供了一个可复制的标准,以推动AI驱动的网页设计。数据集的生成网站将由参与者进行评级并公开发布。

UI-Bench is a benchmark dataset for evaluating the design capabilities of AI text-to-application tools. This dataset includes 30 prompts, 300 websites generated by 10 tools, and over 4,000 expert judgments. UI-Bench utilizes the TrueSkill model to rank systems, and provides a replicable standard to advance AI-driven web design. The websites generated from this dataset will be rated by participants and publicly released.
提供机构:
宾夕法尼亚大学和AfterQuery
创建时间:
2025-08-28
搜集汇总
数据集介绍
构建方式
UI-Bench的构建采用系统性协议,涵盖10款主流AI文本转应用工具、30个标准化提示词及300个生成站点。通过专家双盲对比评估机制,设计者需在完整视图中对随机排列的界面进行二选一偏好判断,所有比较均隐藏工具身份以避免偏见。评估框架基于TrueSkill贝叶斯评分模型,从4075组有效对比数据中计算工具排名并生成95%置信区间,确保统计可靠性。
特点
该数据集的核心特点在于其专业性与可复现性:所有评估均由194名具备UI/UX设计、开发或研究背景的专家完成,严格遵循客户端交付情境的评判标准。覆盖营销落地页、博客编辑、作品集、电商及本地服务五大类别,兼顾网站与Web应用两种类型。其评估结果揭示了AI工具在视觉层次、色彩规划、排版系统及交互完整性方面的显著差异,为行业提供了首个基于专业审美标准的量化排名体系。
使用方法
使用者可通过公开的提示词集、开源评估框架及在线排行榜复现或扩展该基准测试。研究团队建议采用相同的双盲对比协议,要求评估者在全屏模式下审阅完整页面后回答“哪个设计更可能交付给客户”的强制选择题。TrueSkill模型可处理稀疏对比数据并生成带置信区间的技能评分,适用于跨工具、跨提示词的动态性能分析。生成的所有站点数据及专家评分后续将公开,支持细粒度视觉质量研究。
背景与挑战
背景概述
UI-Bench由宾夕法尼亚大学与AfterQuery研究团队于2025年联合推出,是首个针对AI文本转应用工具设计能力的大规模基准测试。该数据集通过专家双盲对比评估,系统性地衡量AI生成界面的视觉设计质量,涵盖10种主流工具、30类提示词生成的300个网站样本及4000余次专业评判。其核心研究在于解决低代码开发领域中AI工具输出质量缺乏客观评估标准的问题,采用TrueSkill贝叶斯评分模型构建排名体系,为AI驱动的前端设计提供了可复现的评估范式,对人机交互与自动化开发领域具有标杆意义。
当前挑战
该数据集主要应对两大挑战:其一是领域问题层面,需解决AI生成界面美学质量主观性强、缺乏统一评估标准的核心难题,传统自动化指标(如FID、CLIP)与人类审美偏好存在显著偏差;其二是构建过程中需克服专家评估一致性低、社会从众效应干扰等技术瓶颈,通过标准化提示词生成、全屏浏览强制机制及随机化双盲对比实验设计,确保评估结果的可靠性与可复现性。
常用场景
经典使用场景
在人工智能驱动的网页设计领域,UI-Bench作为首个大规模基准测试工具,通过专家双盲对比评估不同文本到应用生成工具的视觉设计质量。该数据集覆盖10种主流工具、30类标准化提示词及300个生成站点,采用经过4000余次专业评判的TrueSkill模型进行系统排名,为跨平台设计能力比较提供了可重复的标准化协议。
实际应用
该数据集已应用于企业级设计工具选型、自动化界面生成流水线优化以及用户体验研究平台建设。科技公司依托其排名结果指导产品开发策略,设计机构采用其评估框架进行客户交付物质量管控,教育机构则将其作为人机交互课程中量化评估标准的教学案例,实际提升了行业对AI生成内容的质量监控能力。
衍生相关工作
基于UI-Bench的评估方法论,研究者开发了WebGen-Bench等扩展基准测试体系,推动了自动化导航代理与功能验证技术的发展。其双盲评估协议被Adaptive GUI Benchmark继承用于跨设备界面评估,TrueSkill排名模型则启发了新一代设计质量预测算法的开发,形成了一系列关于多模态模型输出质量评估的衍生研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作