The Human Creativity Benchmark (HCB)
收藏数据集概览
数据集名称:人类创造力基准 (The Human Creativity Benchmark, HCB)
许可协议:CC-BY-4.0
数据集规模:1,000 < 样本数 < 10,000
数据集核心目标
该基准旨在解决传统AI评测中将评估者分歧视为噪声的问题。在创意工作中,专家在可验证维度(如可读排版、正确布局)上高度一致(趋同),而在审美方向、情绪传达等品味驱动维度上存在合理分歧(发散)。HCB保留了这两种信号,用于评估模型在何处应可靠正确,何处应保持对用户偏好的可引导性。
数据集构成
- 创意领域:5个(广告图片、广告视频、品牌设计、桌面应用、落地页)
- 工作流阶段:3个(构思、原型、细化)
- 提示词数量:95条
- AI模型输出:380个
- 评估模型数量:13个
- 评估者数量:31位(匿名化)
- 成对比较判断:3,174条
- 标量评分行:2,116行
- 定性反馈行:2,247行
领域、模态与模型
| 领域 | 模态 | 模型 |
|---|---|---|
| 广告图片 | 文生图 / 图生图 | gpt-image-1.5, gemini-3-pro-image-preview, seedream-4.5, flux-2-pro |
| 品牌设计 | 文生图 / 图生图 | gpt-image-1.5, gemini-3-pro-image-preview, seedream-4.5, flux-2-max |
| 广告视频 | 图生视频 | veo3.1, kling-v3.0-pro, seedance-v1.5-pro, grok-imagine-video |
| 桌面应用 | 文本生成代码 / 代码生成代码 | claude-opus-4.6, gemini-3.1-pro-preview, gpt-5.3-codex, qwen3.5-397b-a17b |
| 落地页 | 文本生成代码 / 代码生成代码 | claude-opus-4.6, gemini-3.1-pro-preview, gpt-5.3-codex, qwen3.5-397b-a17b |
工作流阶段定义
- 构思:探索与发现阶段,目标是激动人心且具有战略相关性的创意方向,而非最终质量。
- 原型:将选定方向具体化,涉及产品实拍、场景构图、品牌标识等。
- 细化:接近生产就绪,进行针对性的编辑以确保一致性和精致度。
文件格式与模式
数据集包含5个CSV文件,可通过标识符相互连接。
prompts_workflow.csv(95行)
| 列名 | 描述 |
|---|---|
prompt_id |
可读的提示词标识符 |
domain |
五个创意领域之一 |
stage |
Ideation, Mockup, 或 Refinement |
prompt_text |
呈现给模型的文本提示 |
input_image |
图片领域的种子/参考图URL(44行有值) |
input_html |
代码领域的种子/参考HTML(26行有值) |
model_outputs.csv(380行)
| 列名 | 描述 |
|---|---|
content_id |
每个资产的主键(UUID) |
prompt_id |
外键,关联到prompts_workflow.csv |
domain, stage |
创意领域与工作流阶段 |
model_id |
生成该输出的模型 |
model_output |
生成的制品(图片/视频URL或内联HTML) |
pairwise_comparisons.csv(3,174行)
| 列名 | 描述 |
|---|---|
comparison_id |
唯一比较标识符(UUID) |
prompt_id, domain, stage |
关联信息 |
evaluator_id |
匿名化评估者标识符(UUID) |
user_core_skill |
评估者的专业特长 |
model_left, model_right |
被比较的两个模型 |
chosen_model |
被选中的模型 |
content_id_left, content_id_right, content_id_chosen |
具体展示和选中的资产ID |
scalar_feedback.csv(2,116行)
| 列名 | 描述 |
|---|---|
evaluation_id |
与qualitative_feedback.csv共享的标识符(UUID) |
prompt_id, evaluator_id, user_core_skill, model_id |
连接键与标识符 |
prompt_adherence |
1-5分:对提示的忠实度(最客观) |
usability |
1-5分:输出在提示和活动上下文中的功能性 |
visual_appeal |
1-5分:视觉趣味、连贯性和精致度(最受品味驱动) |
qualitative_feedback.csv(2,247行)
| 列名 | 描述 |
|---|---|
evaluation_id |
与scalar_feedback.csv共享的标识符(UUID) |
record_type |
per_output(2,116行)或 comparison_rationale(131行) |
prompt_id, evaluator_id, user_core_skill, model_id |
连接键与标识符 |
model_label |
评估者看到的盲标签(A/B/C/D) |
feedback_section |
回复的问卷部分(Outcome或Usability) |
feedback_question |
向评估者展示的确切问题 |
raw_feedback |
评估者的自由文本回答 |
assigned_themes |
编码主题的JSON列表 |
theme_sentiment |
每个主题对应情感的JSON对象 |
key_quotes |
每个主题对应支持性引用的JSON对象 |
数据策划
提示词源自真实创意工作制品并经过标准化编辑,按三阶段工作流组织。模型输出以标准参数生成,匿名化并随机顺序呈现。评估者根据阶段特定准则进行评分。定性反馈在编码前已去除个人身份信息和模型标识。
预期用途
- 研究创意AI评估中的评估者一致性与合理分歧
- 构建或验证创意输出的偏好模型
- 分析模型在不同工作流阶段的优势变化
- 研究趋同与发散的质量维度
局限性与范围
该基准聚焦于特定领域,并非通用能力排行榜。未控制原始模型能力或非确定性。提示词覆盖有限主题。三阶段结构是对迭代创意工作的简化。评估者池规模适中(31位设计专家)。数据更适合作为定性研究和评估研究的起点,而非大规模训练。
引用
bibtex @misc{hopkins2026hcb, title = {The Human Creativity Benchmark}, author = {Hopkins, Aspen and Nulty, Allison and Minetti, Alexandria and Pakki, Anoop and Singh, Angad}, year = {2026}, howpublished = {Contra Labs / Hugging Face Datasets}, note = {Preprint, June 2026} }

- 1The Human Creativity BenchmarkContra; 麻省理工学院 · 2026年



