vibe-landing-page-arena
收藏Vibe Landing Page Arena 数据集概述
数据集基本信息
- 数据集名称:Vibe Landing Page Arena
- 许可证:CC-BY-4.0
- 任务类别:图像分类、视觉问答
- 语言:英语
- 标签:human-preference, design, vibe-coding, pairwise-comparison, bradley-terry, web-design, ai-code-generation, landing-pages
- 数据规模:1K<n<10K
数据集概述
这是一个用于评估AI生成落地页设计质量的大规模人类偏好数据集。包含来自3,492名标注者的36,000对判断,比较了由Claude Code、Cursor、Lovable和Replit根据100个提示词生成的落地页,涵盖4个设计维度。
关键统计信息
| 指标 | 数值 |
|---|---|
| 总判断数 | 36,000 |
| 唯一标注者数 | 3,492 |
| 提示词数量 | 100 |
| 业务类别 | 97 |
| 设计风格 | 82 |
| 比较工具数 | 4 (Claude Code, Cursor, Lovable, Replit) |
| 评估维度 | 4 (美观性、排版、布局、完整性) |
| 每个对决每个维度的判断数 | 15 |
| 每个提示词的工具对数量 | 6 (所有C(4,2)组合) |
数据收集方法
- 编写100个详细提示词,每个指定了业务名称、品牌描述、页面板块、调色板、排版和设计风格。
- 每个提示词发送给4个AI代码生成工具,每个工具生成一个单文件HTML落地页。
- 使用Playwright以1440x900分辨率捕获全页面截图。
- 在Datapoint标注平台上,每个提示词的所有6个可能工具对均以成对图像比较的形式呈现。
- 对于每个比较,标注者独立评估4个维度:美观性、排版、布局和完整性。
- 每次呈现时显示顺序随机化,以消除左右位置偏差。
- 每个对决在每个维度上获得15个独立判断。
数据集结构
comparisons (2,400行)
每行是一个聚合比较:一个工具对、一个维度,包含截图、提示词文本和来自15名标注者的投票计数。
| 列名 | 类型 | 描述 |
|---|---|---|
image_a |
图像 | 工具a生成的落地页全页面截图 |
image_b |
图像 | 工具b生成的落地页全页面截图 |
tool_a |
字符串 | 对中的第一个工具 |
tool_b |
字符串 | 对中的第二个工具 |
prompt_id |
整数 | 提示词ID (1-100) |
brand |
字符串 | 提示词中的业务名称 |
category |
字符串 | 业务类别 |
tone |
字符串 | 设计风格 |
prompt |
字符串 | 用于生成落地页的完整提示词文本 |
dimension |
字符串 | 评估维度 |
dimension_question |
字符串 | 标注者回答的确切问题 |
votes_a |
整数 | 偏好工具a的标注者数量 |
votes_b |
整数 | 偏好工具b的标注者数量 |
winner |
字符串 | "A" (工具a多数)、"B" (工具b多数) 或 "tie" |
评估维度
每个比较在4个独立维度上评估。标注者每个维度回答一个问题:
| 维度 | 问题 |
|---|---|
| 美观性 | "哪个设计第一眼看起来更好?" |
| 排版 | "哪个的字体选择、大小和可读性更好?" |
| 布局 | "哪个的间距、对齐和视觉流更好?" |
| 完整性 | "哪个的板块构建更完整,没有空白或损坏区域?" |
prompts (100行)
| 列名 | 类型 | 描述 |
|---|---|---|
id |
整数 | 提示词ID (1-100) |
category |
字符串 | 业务类别 |
tone |
字符串 | 设计风格 |
prompt |
字符串 | 完整提示词文本 |
screenshots (400张图像)
所有生成落地页的全页面截图 (100个提示词 x 4个工具),以1440x900视口捕获。
主要发现
整体排名 (Bradley-Terry模型)
| 排名 | 工具 | 强度 | 95%置信区间 |
|---|---|---|---|
| 1 | Cursor | 0.271 | 0.265 - 0.277 |
| 2 | Claude | 0.269 | 0.263 - 0.274 |
| 3 | Lovable | 0.262 | 0.256 - 0.267 |
| 4 | Replit | 0.199 | 0.194 - 0.204 |
多数投票胜率
| 排名 | 工具 | 胜率 |
|---|---|---|
| 1 | Cursor | 55.4% |
| 2 | Claude | 55.3% |
| 3 | Lovable | 53.1% |
| 4 | Replit | 36.2% |
维度专业化
没有单一工具在所有维度上获胜:
| 维度 | #1 | #2 | #3 | #4 |
|---|---|---|---|---|
| 美观性 | Lovable | Cursor | Claude | Replit |
| 排版 | Cursor | Claude | Lovable | Replit |
| 布局 | Lovable | Claude | Cursor | Replit |
| 完整性 | Claude | Cursor | Lovable | Replit |
类别专业化
- Lovable 在35/97个类别中排名第一 (消费品牌、生活方式、电子商务)
- Claude 在32/97个类别中排名第一 (专业服务、企业、金融科技)
- Cursor 在17/97个类别中排名第一 (SaaS、科技、代理)
- Replit 在13/97个类别中排名第一 (开发工具、合规)
使用方法
python from datasets import load_dataset
加载成对比较判断
comparisons = load_dataset("datapointai/vibe-landing-page-arena", "comparisons")
加载提示词
prompts = load_dataset("datapointai/vibe-landing-page-arena", "prompts")
方法论
- 排名模型:Bradley-Terry模型,使用1,000次bootstrap迭代计算95%置信区间
- 显著性检验:相邻排名工具之间的似然比检验
- 位置偏差:通过带位置参数的BT模型验证可忽略 (delta = -0.03,CI跨越零)。每次呈现时显示顺序随机化。
- 标注者质量:平台使用带有已知黄金标准答案的校准任务来计算标注者信任分数。60%的校准标注者获得了完美的信任分数 (1.0)。
与相关工作的比较
| 本数据集 | UI-Bench | Vibe Design Arena v1 | Verita AI Study | |
|---|---|---|---|---|
| 提示词 | 100 (受控) | 30 (受控) | 60 (真实应用) | 80 (受控) |
| 工具 | 4 | 10 | 6 | 4 |
| 维度 | 4 | 1 | 1 | 4 |
| 总判断数 | 36,000 | 4,075 | ~53,000 | 1,260 |
| 评估者 | 3,492众包 | 194专家 | 众包 | 5专家 |
| 每个对决的判断数 | 每个维度15 | ~4 | 30 | ~3 |
| 类别级分析 | 97个类别 | 无 | 无 | 2种风格 |
| 位置随机化 | 是 | 是 | 是 | 未报告 |
| 统计模型 | Bradley-Terry + 贝叶斯BT | TrueSkill | 胜率 | Bradley-Terry |
引用
bibtex @dataset{vibe_landing_page_arena_2026, title={Vibe Landing Page Arena: Human Preference Evaluation of AI-Generated Landing Page Design}, author={Datapoint AI}, year={2026}, url={https://huggingface.co/datasets/datapointai/vibe-landing-page-arena}, note={36,000 pairwise judgments across 4 tools, 100 prompts, and 4 design dimensions} }
联系方式
由Datapoint AI构建。问题或反馈:sales@trydatapoint.com




