Reinforcement Learning from Designer Feedback Dataset

github2026-01-07 更新2026-01-12 收录

下载链接：

https://github.com/apple/ml-rldf

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约1500个设计注释，由21位设计师使用评论、草图和直接操作等熟悉的交互方式提供反馈。这些数据用于微调一系列LLM，以生成更高质量的UI。

This dataset contains approximately 1,500 design annotations, with feedback provided by 21 designers via familiar interaction modalities including comments, sketches, and direct manipulation. This data is used to fine-tune a series of large language models (LLMs) to generate higher-quality UI.

创建时间：

2026-01-06

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Reinforcement Learning from Designer Feedback (RLDF) 数据集
数据集地址：https://github.com/apple/ml-rldf
关联研究论文：Improving User Interface Generation Models from Designer Feedback
数据规模：约 1,460 个合成 UI 截图
标注者：21 位专业设计师
反馈类型：设计师通过排名、评论、草图绘制和直接修订任务进行标注

数据集内容与结构

数据集根据反馈模式分为四个 Hugging Face 数据集。

1. 设计师对合成 UI 的评论 (`comment_improved_dataset_hf`)

数据量：152 行
字段说明：
- userid：参与者编号
- screenid：被标注的已渲染 UI 截图的标识符
- image：原始 UI 的截图图像
- description：用于生成合成截图的自然语言描述
- annotation：从 JSON 文件后处理得到的标注
- html_code：用于生成原始 UI 截图的 HTML 代码
- improvement_prompt：根据设计师评论得出的用于改进原始 UI 的提示
- improved_html：使用原始 HTML 和改进提示后，由 LLM 修订的 HTML 代码
- improved_image：渲染后的改进版 HTML 图像

2. 设计师对合成 UI 的排名 (`ranking_training_dataset_hf`)

数据量：1098 行
字段说明：
- userid：参与者编号
- screenid：被标注的已渲染 UI 截图的标识符
- description：用于生成合成截图的自然语言描述
- chosen_image：设计师偏好的 UI 截图
- rejected_image：设计师未选择的 UI 截图
- chosen_html：所选图像的 HTML 源代码
- rejected_html：被拒绝图像的 HTML 源代码

3. 设计师对合成 UI 的修订 (`revision_training_dataset_hf`)

数据量：68 行
字段说明：
- userid：参与者编号
- description：用于生成合成截图的自然语言描述
- chosen_image：来自设计师调整后的 .sketch 文件的渲染截图
- rejected_image：来自原始 .sketch 文件的渲染截图

4. 设计师对合成 UI 的评论（带边界框标注） (`sketch_improved_dataset_hf`)

数据量：181 行
字段说明：
- userid：参与者编号
- screenid：被标注的已渲染 UI 截图的标识符
- image：原始 UI 的截图图像
- description：用于生成合成截图的自然语言描述
- annotation：从 JSON 文件后处理得到的标注
- html_code：用于生成原始 UI 截图的 HTML 代码
- improvement_prompt：根据设计师评论得出的用于改进原始 UI 的提示
- improved_html：使用原始 HTML 和改进提示后，由 LLM 修订的 HTML 代码
- improved_image：渲染后的改进版 HTML 图像

数据获取与使用

数据集下载地址：https://ml-site.cdn-apple.com/datasets/rldf/rldf.zip
用途：该数据集用于微调一系列 LLM，以生成更高质量的 UI。研究结果表明，基于该数据集训练的、与设计师工作流程对齐的方法，其表现优于使用传统排名反馈训练的模型以及所有测试的基线模型（包括 GPT-5）。

引用信息

如果使用此数据集，请引用以下论文： bibtex @misc{wu2025improving, title = {Improving User Interface Generation Models from Designer Feedback}, author = {Jason Wu and Amanda Swearngin and Arun Krishna Vajjala and Alan Leung and Jeffrey Nichols and Titus Barik}, year = {2025}, eprint = {2509.16779}, archivePrefix= {arXiv}, primaryClass = {cs.HC}, doi = {10.48550/arXiv.2509.16779}, url = {https://arxiv.org/abs/2509.16779} }

搜集汇总

数据集介绍

构建方式

在用户界面生成领域，传统强化学习方法往往难以捕捉设计师的深层反馈。该数据集的构建源于一项涉及21位专业设计师的研究，通过模拟真实工作流程中的评论、草图绘制和直接修订等交互方式，收集了约1500条设计标注。这些标注基于大语言模型生成的合成UI截图，设计师们对界面进行多维度评估与改进，形成了涵盖排名、评论、草图及修订四种反馈模态的结构化数据。

特点

该数据集的核心特征在于其多模态反馈机制的完整性，不仅包含设计师对UI设计的偏好排序，还整合了带有详细注释的改进建议与视觉草图。每个数据条目均关联原始UI截图、自然语言描述、HTML源码及改进后的版本，形成了从问题识别到解决方案的完整闭环。这种结构为模型训练提供了丰富的监督信号，超越了传统单一评分体系的局限性，能够更精准地捕捉设计决策的细微差别。

使用方法

研究者可通过下载数据集文件，利用Hugging Face平台加载四种独立的数据子集，分别对应不同反馈类型。每个子集均采用标准化字段结构，便于直接用于奖励模型与生成模型的微调任务。实际操作中，可结合提供的推理脚本，将设计师反馈转化为模型可理解的训练信号，进而优化UI生成质量。数据集的设计充分考虑了工程实践的便捷性，支持端到端的模型训练与评估流程。

背景与挑战

背景概述

在人工智能与设计学交叉领域，用户界面（UI）的自动生成技术长期面临生成结果缺乏设计专业性的瓶颈。尽管大型语言模型（LLM）在代码生成方面展现出强大能力，但其生成的UI往往难以满足实际设计标准与美学要求。为此，苹果公司的研究团队于2025年发布了“基于设计师反馈的强化学习数据集”，该数据集源自一项涉及21位专业设计师的实证研究，旨在探索如何通过评论、草图、直接修订等自然交互方式收集设计师反馈，进而优化UI生成模型。该研究核心在于解决传统基于排序的强化学习人类反馈（RLHF）方法无法有效捕捉设计师工作流程与丰富设计逻辑的问题，通过构建包含约1460个标注样本的多模态反馈数据集，为训练更贴合设计师意图的奖励模型与生成模型提供了关键数据基础，显著提升了UI生成的质量与实用性。

当前挑战

该数据集致力于应对用户界面自动生成领域的两大核心挑战：一是如何使生成模型输出的UI在视觉布局、交互逻辑与美学层面达到专业设计水准，传统方法仅依赖排序反馈，难以捕捉设计师基于经验与情境的深层改进逻辑；二是在数据集构建过程中，研究团队需克服多模态反馈的高效采集与标准化难题，包括将设计师通过草图、评论等非结构化交互产生的意图转化为可量化、可计算的训练信号，并确保不同反馈模态（如排名、评论、草图、修订）的数据在格式与语义上保持一致性与可融合性，以支撑后续的模型微调与评估。

常用场景

经典使用场景

在用户界面生成领域，传统方法往往依赖于大规模预训练语言模型，但这些模型在生成符合设计美学与功能需求的界面时仍存在显著局限。Reinforcement Learning from Designer Feedback Dataset通过整合设计师的多元化反馈——包括评论、草图绘制、直接修订及排序——为模型优化提供了丰富的监督信号。该数据集最经典的应用场景在于训练奖励模型与生成模型，使系统能够理解并内化设计师的审美偏好与改进逻辑，从而迭代生成更高质量的用户界面原型。

实际应用

在实际应用层面，该数据集支撑的模型能够显著提升自动化界面设计工具的实用性与接受度。例如，在快速原型开发、无障碍界面适配或跨平台界面生成等场景中，系统可依据设计师的反馈历史，实时生成符合品牌指南与用户体验原则的界面代码。这不仅缩短了设计迭代周期，降低了人力成本，更使得非专业开发者也能借助智能辅助工具产出专业级设计成果，促进了设计民主化与技术创新效率。

衍生相关工作

基于该数据集衍生的经典工作主要包括多模态奖励模型的构建与特定优化算法的探索。例如，研究团队利用草图增强的CLIP模型学习视觉与文本描述的对齐，进而量化界面质量；同时，结合Odds Ratio Preference Optimization等策略对代码生成模型进行微调，显著提升了生成界面的功能性及美观度。这些工作不仅验证了设计师反馈在模型对齐中的有效性，也为后续研究如何融合人类创意与机器学习提供了可复现的基准与方法论启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集