vibe-landing-page-arena

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/datapointai/vibe-landing-page-arena

下载链接

链接失效反馈

官方服务：

资源简介：

Vibe Landing Page Arena 是一个大规模人类偏好数据集，用于评估AI生成的落地页设计质量。数据集包含来自3,492名标注者的36,000对比较判断，覆盖100个提示词和4个设计维度（美观、排版、布局和完整性）。数据收集过程包括：1）编写100个详细提示词，指定业务名称、品牌描述、页面部分、调色板、排版和设计基调；2）使用4种AI代码生成工具（Claude Code、Cursor、Lovable和Replit）生成单文件HTML落地页；3）使用Playwright捕获1440x900的全页面截图；4）在Datapoint标注平台上进行成对图像比较。数据集结构包括：比较表（2,400行，包含工具对、维度、截图、提示文本和投票计数）、提示词表（100行）和截图（400张图像）。关键发现包括：Cursor总体排名第一，不同工具在不同维度和业务类别中表现各异。数据集适用于图像分类和视觉问答任务，采用CC-BY-4.0许可。

创建时间：

2026-03-27

原始信息汇总

Vibe Landing Page Arena 数据集概述

数据集基本信息

数据集名称：Vibe Landing Page Arena
许可证：CC-BY-4.0
任务类别：图像分类、视觉问答
语言：英语
标签：human-preference, design, vibe-coding, pairwise-comparison, bradley-terry, web-design, ai-code-generation, landing-pages
数据规模：1K<n<10K

数据集概述

这是一个用于评估AI生成落地页设计质量的大规模人类偏好数据集。包含来自3,492名标注者的36,000对判断，比较了由Claude Code、Cursor、Lovable和Replit根据100个提示词生成的落地页，涵盖4个设计维度。

关键统计信息

指标	数值
总判断数	36,000
唯一标注者数	3,492
提示词数量	100
业务类别	97
设计风格	82
比较工具数	4 (Claude Code, Cursor, Lovable, Replit)
评估维度	4 (美观性、排版、布局、完整性)
每个对决每个维度的判断数	15
每个提示词的工具对数量	6 (所有C(4,2)组合)

数据收集方法

编写100个详细提示词，每个指定了业务名称、品牌描述、页面板块、调色板、排版和设计风格。
每个提示词发送给4个AI代码生成工具，每个工具生成一个单文件HTML落地页。
使用Playwright以1440x900分辨率捕获全页面截图。
在Datapoint标注平台上，每个提示词的所有6个可能工具对均以成对图像比较的形式呈现。
对于每个比较，标注者独立评估4个维度：美观性、排版、布局和完整性。
每次呈现时显示顺序随机化，以消除左右位置偏差。
每个对决在每个维度上获得15个独立判断。

数据集结构

`comparisons` (2,400行)

每行是一个聚合比较：一个工具对、一个维度，包含截图、提示词文本和来自15名标注者的投票计数。

列名	类型	描述
`image_a`	图像	工具a生成的落地页全页面截图
`image_b`	图像	工具b生成的落地页全页面截图
`tool_a`	字符串	对中的第一个工具
`tool_b`	字符串	对中的第二个工具
`prompt_id`	整数	提示词ID (1-100)
`brand`	字符串	提示词中的业务名称
`category`	字符串	业务类别
`tone`	字符串	设计风格
`prompt`	字符串	用于生成落地页的完整提示词文本
`dimension`	字符串	评估维度
`dimension_question`	字符串	标注者回答的确切问题
`votes_a`	整数	偏好工具a的标注者数量
`votes_b`	整数	偏好工具b的标注者数量
`winner`	字符串	"A" (工具a多数)、"B" (工具b多数) 或 "tie"

评估维度

每个比较在4个独立维度上评估。标注者每个维度回答一个问题：

维度	问题
美观性	"哪个设计第一眼看起来更好？"
排版	"哪个的字体选择、大小和可读性更好？"
布局	"哪个的间距、对齐和视觉流更好？"
完整性	"哪个的板块构建更完整，没有空白或损坏区域？"

`prompts` (100行)

列名	类型	描述
`id`	整数	提示词ID (1-100)
`category`	字符串	业务类别
`tone`	字符串	设计风格
`prompt`	字符串	完整提示词文本

`screenshots` (400张图像)

所有生成落地页的全页面截图 (100个提示词 x 4个工具)，以1440x900视口捕获。

主要发现

整体排名 (Bradley-Terry模型)

排名	工具	强度	95%置信区间
1	Cursor	0.271	0.265 - 0.277
2	Claude	0.269	0.263 - 0.274
3	Lovable	0.262	0.256 - 0.267
4	Replit	0.199	0.194 - 0.204

多数投票胜率

排名	工具	胜率
1	Cursor	55.4%
2	Claude	55.3%
3	Lovable	53.1%
4	Replit	36.2%

维度专业化

没有单一工具在所有维度上获胜：

维度	#1	#2	#3	#4
美观性	Lovable	Cursor	Claude	Replit
排版	Cursor	Claude	Lovable	Replit
布局	Lovable	Claude	Cursor	Replit
完整性	Claude	Cursor	Lovable	Replit

类别专业化

Lovable 在35/97个类别中排名第一 (消费品牌、生活方式、电子商务)
Claude 在32/97个类别中排名第一 (专业服务、企业、金融科技)
Cursor 在17/97个类别中排名第一 (SaaS、科技、代理)
Replit 在13/97个类别中排名第一 (开发工具、合规)

使用方法

python from datasets import load_dataset

加载成对比较判断

comparisons = load_dataset("datapointai/vibe-landing-page-arena", "comparisons")

加载提示词

prompts = load_dataset("datapointai/vibe-landing-page-arena", "prompts")

方法论

排名模型：Bradley-Terry模型，使用1,000次bootstrap迭代计算95%置信区间
显著性检验：相邻排名工具之间的似然比检验
位置偏差：通过带位置参数的BT模型验证可忽略 (delta = -0.03，CI跨越零)。每次呈现时显示顺序随机化。
标注者质量：平台使用带有已知黄金标准答案的校准任务来计算标注者信任分数。60%的校准标注者获得了完美的信任分数 (1.0)。

与相关工作的比较

	本数据集	UI-Bench	Vibe Design Arena v1	Verita AI Study
提示词	100 (受控)	30 (受控)	60 (真实应用)	80 (受控)
工具	4	10	6	4
维度	4	1	1	4
总判断数	36,000	4,075	~53,000	1,260
评估者	3,492众包	194专家	众包	5专家
每个对决的判断数	每个维度15	~4	30	~3
类别级分析	97个类别	无	无	2种风格
位置随机化	是	是	是	未报告
统计模型	Bradley-Terry + 贝叶斯BT	TrueSkill	胜率	Bradley-Terry

引用

bibtex @dataset{vibe_landing_page_arena_2026, title={Vibe Landing Page Arena: Human Preference Evaluation of AI-Generated Landing Page Design}, author={Datapoint AI}, year={2026}, url={https://huggingface.co/datasets/datapointai/vibe-landing-page-arena}, note={36,000 pairwise judgments across 4 tools, 100 prompts, and 4 design dimensions} }

联系方式

由Datapoint AI构建。问题或反馈：sales@trydatapoint.com

搜集汇总

数据集介绍

构建方式

在网页设计评估领域，该数据集通过严谨的多阶段流程构建而成。研究团队首先精心编制了100个涵盖97种商业类别和82种设计风格的详细提示词，每个提示词均包含品牌描述、页面结构、色彩搭配等完整设计要素。随后将这些提示词输入四种主流AI代码生成工具，获取其生成的单文件HTML着陆页，并通过自动化工具捕获1440x900分辨率的全页面截图。最后在专业标注平台上，将每对工具生成的页面进行随机顺序呈现，邀请3492名经过校准的标注者从美学吸引力、排版质量、布局结构和内容完整性四个维度进行独立评判，每个维度均收集15次独立判断，最终形成36000条成对比较数据。

特点

该数据集展现出多维度的评估特性，其核心价值在于对AI生成网页设计质量的精细化度量。数据集不仅记录了工具间的整体偏好排序，更通过四个独立设计维度的专项评估，揭示了不同工具在设计子领域的差异化表现。数据结构的精心设计体现在三个互补的子集中：包含完整比较信息的聚合表、原始提示词集合以及所有生成页面的截图资源。特别值得注意的是，数据集通过随机化呈现顺序有效控制了位置偏差，并采用Bradley-Terry模型进行统计建模，为每个工具提供了具有置信区间的强度估计。这种多层次、多角度的数据组织方式，为深入理解AI设计工具的专项能力提供了丰富的研究素材。

使用方法

研究者可通过HuggingFace数据集库便捷加载该资源，主要包含比较数据、提示词和截图三个配置项。在具体应用中，数据集支持多种分析路径：可直接计算各工具的胜率统计，也可复现原文中的Bradley-Terry模型进行强度估计。对于设计质量评估研究，可依据四个评估维度进行细粒度分析，探究不同商业类别或设计风格下工具的差异化表现。机器学习领域的研究者可利用成对比较数据训练偏好预测模型，或开发设计质量自动评估指标。数据集的标准化格式确保了分析流程的可重复性，而嵌入在比较数据中的图像资源则为视觉分析提供了直接支持。

背景与挑战

背景概述

随着人工智能在代码生成领域的迅猛发展，评估AI生成内容的质量，尤其是在视觉设计等主观性较强的任务上，成为一项关键挑战。Vibe Landing Page Arena数据集由Datapoint AI于2026年创建，旨在系统性地评估AI生成的着陆页设计质量。该数据集聚焦于一个核心研究问题：如何基于人类偏好，对多种AI代码生成工具在网页设计任务上的输出进行可靠、多维度的比较。通过涵盖100个精心设计的提示、4种主流AI工具以及4个独立的设计评估维度，该数据集为量化AI在创意生成领域的性能提供了重要基准，对推动人机协作设计、自动化评估方法以及AI工具优化产生了深远影响。

当前挑战

该数据集致力于解决AI生成网页设计质量评估这一领域问题，其核心挑战在于如何建立一套可靠且可扩展的人类偏好收集与量化框架。设计质量的评判具有高度主观性，数据集构建需克服多个难题：首先，需设计能覆盖广泛业务场景与设计风格的多样化提示，以全面评估模型的泛化能力；其次，需在众包标注中控制主观偏差，确保跨评估者与跨维度评判的一致性；再者，需开发稳健的统计模型（如Bradley-Terry模型）来处理成对比较数据，并从中推导出具有统计显著性的工具排名。这些挑战共同指向了在自动化创意生成领域建立标准化评估协议的复杂性。

常用场景

经典使用场景

在网页设计与人工智能生成内容交叉领域，Vibe Landing Page Arena数据集为评估AI生成落地页设计质量提供了基准。其经典使用场景在于通过大规模人类偏好标注，对Claude Code、Cursor、Lovable和Replit等主流AI代码生成工具的输出进行多维度比较。研究者利用该数据集中的36,000对成对比较数据，结合Bradley-Terry模型量化工具在设计美学、排版、布局和完整性四个维度的性能差异，从而系统评估不同工具在响应多样化商业提示时的设计能力与稳定性。

解决学术问题

该数据集有效解决了人机交互与计算创意领域中关于AI生成设计质量评估的若干核心学术问题。通过构建覆盖97个商业类别和82种设计风格的标准化提示集，并引入多维度独立评估机制，它克服了传统单一评分体系的局限性，为设计偏好建模提供了细粒度数据支撑。其采用随机化呈现与重复标注策略，显著降低了位置偏差对评估结果的影响，使得基于统计模型的工具排名具有更高可靠性，推动了AI设计评估方法学的标准化进程。

衍生相关工作

基于该数据集衍生的经典工作主要集中在设计评估模型扩展与跨模态生成系统优化两个方向。部分研究将Bradley-Terry模型与贝叶斯推断结合，开发出能够量化不确定性的动态排名系统；另有工作借鉴其多维度评估框架，构建了融合视觉特征与语义信息的神经网络预测模型，以降低人类标注依赖。此外，数据集中揭示的工具-类别关联模式，激发了针对领域自适应生成技术的探索，推动了如UI-Bench等基准测试体系的演进与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

vibe-landing-page-arena

Vibe Landing Page Arena 数据集概述

数据集基本信息

数据集概述

关键统计信息

数据收集方法

数据集结构

comparisons (2,400行)

评估维度

prompts (100行)

screenshots (400张图像)

主要发现

整体排名 (Bradley-Terry模型)

多数投票胜率

维度专业化

类别专业化

使用方法

加载成对比较判断

加载提示词

方法论

与相关工作的比较

引用

联系方式

`comparisons` (2,400行)

`prompts` (100行)

`screenshots` (400张图像)