The Human Creativity Benchmark (HCB)

Name: The Human Creativity Benchmark (HCB)
Creator: Contra; 麻省理工学院
Published: 2026-06-30 00:59:46
License: 暂无描述

arXiv2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/contra-labs/HCB

下载链接

链接失效反馈

官方服务：

资源简介：

人类创造力基准（HCB）是由Contra与麻省理工学院联合构建的专业评估数据集，旨在系统分析生成式AI在创意领域的表现差异。该数据集包含5,940组专业评判数据，涵盖着陆页、桌面应用、广告图像等五大创意领域，通过三个阶段的工作流程收集了配对比较、标度评分和定性解释等多维度标注。数据集构建过程采用真实创意工作流程中的专业提示词，由28位来自13个国家的领域专家对多个前沿模型输出进行系统评估。该数据集主要应用于创意AI评估领域，旨在区分创意评估中的收敛性（技术正确性）与发散性（审美偏好）信号，为开发既可靠又可引导的创意AI系统提供实证基础。

The Human Creativity Benchmark (HCB) is a specialized evaluation dataset jointly developed by Contra and the Massachusetts Institute of Technology (MIT), aiming to systematically analyze the performance differences of generative AI in the creative domain. This dataset contains 5,940 sets of professional judgment data, covering five major creative domains including landing pages, desktop applications, and advertising images. Multi-dimensional annotations such as paired comparisons, scaled ratings, and qualitative explanations were collected via a three-stage workflow. During the dataset construction, professional prompts derived from real-world creative workflows were adopted, and systematic evaluations were conducted on the outputs of multiple cutting-edge models by 28 domain experts from 13 countries. This dataset is primarily used in the field of creative AI evaluation, with the goal of distinguishing between convergent signals (technical correctness) and divergent signals (aesthetic preferences) in creative assessment, thereby providing an empirical foundation for developing reliable and steerable creative AI systems.

提供机构：

Contra; 麻省理工学院

创建时间：

2026-06-30

原始信息汇总

数据集概览

数据集名称：人类创造力基准 (The Human Creativity Benchmark, HCB)

许可协议：CC-BY-4.0

数据集规模：1,000 < 样本数 < 10,000

数据集核心目标

该基准旨在解决传统AI评测中将评估者分歧视为噪声的问题。在创意工作中，专家在可验证维度（如可读排版、正确布局）上高度一致（趋同），而在审美方向、情绪传达等品味驱动维度上存在合理分歧（发散）。HCB保留了这两种信号，用于评估模型在何处应可靠正确，何处应保持对用户偏好的可引导性。

数据集构成

创意领域：5个（广告图片、广告视频、品牌设计、桌面应用、落地页）
工作流阶段：3个（构思、原型、细化）
提示词数量：95条
AI模型输出：380个
评估模型数量：13个
评估者数量：31位（匿名化）
成对比较判断：3,174条
标量评分行：2,116行
定性反馈行：2,247行

领域、模态与模型

领域	模态	模型
广告图片	文生图 / 图生图	`gpt-image-1.5`, `gemini-3-pro-image-preview`, `seedream-4.5`, `flux-2-pro`
品牌设计	文生图 / 图生图	`gpt-image-1.5`, `gemini-3-pro-image-preview`, `seedream-4.5`, `flux-2-max`
广告视频	图生视频	`veo3.1`, `kling-v3.0-pro`, `seedance-v1.5-pro`, `grok-imagine-video`
桌面应用	文本生成代码 / 代码生成代码	`claude-opus-4.6`, `gemini-3.1-pro-preview`, `gpt-5.3-codex`, `qwen3.5-397b-a17b`
落地页	文本生成代码 / 代码生成代码	`claude-opus-4.6`, `gemini-3.1-pro-preview`, `gpt-5.3-codex`, `qwen3.5-397b-a17b`

工作流阶段定义

构思：探索与发现阶段，目标是激动人心且具有战略相关性的创意方向，而非最终质量。
原型：将选定方向具体化，涉及产品实拍、场景构图、品牌标识等。
细化：接近生产就绪，进行针对性的编辑以确保一致性和精致度。

文件格式与模式

数据集包含5个CSV文件，可通过标识符相互连接。

`prompts_workflow.csv`（95行）

列名	描述
`prompt_id`	可读的提示词标识符
`domain`	五个创意领域之一
`stage`	`Ideation`, `Mockup`, 或 `Refinement`
`prompt_text`	呈现给模型的文本提示
`input_image`	图片领域的种子/参考图URL（44行有值）
`input_html`	代码领域的种子/参考HTML（26行有值）

`model_outputs.csv`（380行）

列名	描述
`content_id`	每个资产的主键（UUID）
`prompt_id`	外键，关联到`prompts_workflow.csv`
`domain`, `stage`	创意领域与工作流阶段
`model_id`	生成该输出的模型
`model_output`	生成的制品（图片/视频URL或内联HTML）

`pairwise_comparisons.csv`（3,174行）

列名	描述
`comparison_id`	唯一比较标识符（UUID）
`prompt_id`, `domain`, `stage`	关联信息
`evaluator_id`	匿名化评估者标识符（UUID）
`user_core_skill`	评估者的专业特长
`model_left`, `model_right`	被比较的两个模型
`chosen_model`	被选中的模型
`content_id_left`, `content_id_right`, `content_id_chosen`	具体展示和选中的资产ID

`scalar_feedback.csv`（2,116行）

列名	描述
`evaluation_id`	与`qualitative_feedback.csv`共享的标识符（UUID）
`prompt_id`, `evaluator_id`, `user_core_skill`, `model_id`	连接键与标识符
`prompt_adherence`	1-5分：对提示的忠实度（最客观）
`usability`	1-5分：输出在提示和活动上下文中的功能性
`visual_appeal`	1-5分：视觉趣味、连贯性和精致度（最受品味驱动）

`qualitative_feedback.csv`（2,247行）

列名	描述
`evaluation_id`	与`scalar_feedback.csv`共享的标识符（UUID）
`record_type`	`per_output`（2,116行）或 `comparison_rationale`（131行）
`prompt_id`, `evaluator_id`, `user_core_skill`, `model_id`	连接键与标识符
`model_label`	评估者看到的盲标签（A/B/C/D）
`feedback_section`	回复的问卷部分（`Outcome`或`Usability`）
`feedback_question`	向评估者展示的确切问题
`raw_feedback`	评估者的自由文本回答
`assigned_themes`	编码主题的JSON列表
`theme_sentiment`	每个主题对应情感的JSON对象
`key_quotes`	每个主题对应支持性引用的JSON对象

数据策划

提示词源自真实创意工作制品并经过标准化编辑，按三阶段工作流组织。模型输出以标准参数生成，匿名化并随机顺序呈现。评估者根据阶段特定准则进行评分。定性反馈在编码前已去除个人身份信息和模型标识。

预期用途

研究创意AI评估中的评估者一致性与合理分歧
构建或验证创意输出的偏好模型
分析模型在不同工作流阶段的优势变化
研究趋同与发散的质量维度

局限性与范围

该基准聚焦于特定领域，并非通用能力排行榜。未控制原始模型能力或非确定性。提示词覆盖有限主题。三阶段结构是对迭代创意工作的简化。评估者池规模适中（31位设计专家）。数据更适合作为定性研究和评估研究的起点，而非大规模训练。

引用

bibtex @misc{hopkins2026hcb, title = {The Human Creativity Benchmark}, author = {Hopkins, Aspen and Nulty, Allison and Minetti, Alexandria and Pakki, Anoop and Singh, Angad}, year = {2026}, howpublished = {Contra Labs / Hugging Face Datasets}, note = {Preprint, June 2026} }

搜集汇总

数据集介绍

构建方式

在生成式人工智能与创意工作深度融合的背景下，The Human Creativity Benchmark (HCB) 应运而生。该数据集的构建植根于对专业创意人员工作流程的深入调研，通过一项面向独立创意从业者的探索性调查，识别出创意过程的三个核心阶段：构思(Ideation)、方案(Mockup)与精炼(Refinement)。基于此，HCB 横跨落地页、桌面应用、广告图像、品牌图像及产品视频五个创意领域，每个领域均从真实设计师的工作产物中提炼提示词，并交由前沿生成模型(如 GPT-Image-1.5、Veo3.1、Claude-Opus-4.6等)产出内容。随后，来自全球13个国家的28名领域专家在受控评估环境中，对模型输出进行了成对偏好比较、1至5分的标量评分(涵盖提示遵循度、可用性与视觉吸引力)以及开放式定性解释，最终汇集约15,000条专业判断，形成这一多维度、工作流导向的基准数据集。

使用方法

HCB 为研究者与模型开发者提供了探索创意AI评估多维性的结构化工具。使用者可通过配对比较数据，运用 Bradley-Terry 模型计算各模型在不同创意阶段与领域内的 ELO 评分，从而追踪模型性能的阶段性迁移。标量评分数据支持跨维度(如提示遵循度与视觉吸引力)的相关性分析，用以检验不同评估轴之间的差异与关联。此外，编码后的定性反馈为定量结果提供了丰富的语境解释，有助于理解专家做出特定判断的深层原因。该数据集以 CSV 文件形式公开发布于 Hugging Face 平台，所有文件共享 prompt_id 作为连接键，便于研究者按创意阶段、领域或评估维度灵活筛选与分析，从趋同与趋异双重视角洞察生成模型的优势与局限。

背景与挑战

背景概述

人类创造力基准（Human Creativity Benchmark, HCB）由Contra公司与麻省理工学院的研究人员于2026年联合创建，旨在解决生成式AI在创意领域评估中面临的根本性困境。传统AI评估框架将评估者间的分歧视为噪声，但在创意工作中，专业人士的品味差异恰恰反映了真实且有效的信号。HCB的核心研究问题在于如何区分创意评估中的收敛性——即专业人士围绕共享最佳实践达成一致，与发散性——即个体审美取向带来的合理差异。该数据集通过收集来自13个国家28位专业创意人士近15000条判断，涵盖五个创意领域及创意流程的三个阶段，为创意AI评估提供了突破性的方法论框架，对推动人机协作创意系统的发展具有里程碑式的影响力。

当前挑战

HCB所应对的核心挑战在于创意领域评估范式的根本性转变。传统基准依赖可验证的标准与预设标签，但在创意工作中，评估维度同时包含客观可验证的标准（如提示遵循度、可用性）与主观驱动的审美判断（如视觉吸引力、概念风险）。传统方法将分歧视为测量误差加以消除，而HCB必须设计一种能够同时保留和分离这两种信号的新框架。构建过程中面临的挑战包括：如何生成能真实反映专业创意工作流程的多阶段提示，如何确保评估者来自多元化背景且具备领域专长，如何设计评估界面以同时捕获成对偏好、标量评分和定性解释三种互补信号，以及如何在分析中严格区分收敛与发散的模式而非简单地聚合为单一质量指标。

常用场景

经典使用场景

在生成式人工智能与创意设计交汇的前沿领域，The Human Creativity Benchmark (HCB) 被广泛用于评估模型在真实创意工作流中的表现。其经典使用场景聚焦于对比不同前沿生成模型，在广告图像、品牌资产、桌面应用、落地页及产品视频五个创意领域中，于构思、原型制作和精修三个阶段的输出质量。通过收集成对偏好、标量评分及专业创作者的定性理由，HCB 为研究者提供了一种系统化的手段，用以探查模型在提示遵循度、可用性和视觉吸引力等维度上的优劣，从而揭示模型在创意流程不同环节的真实能力边界。

解决学术问题

HCB 直面创意评估中长期存在的根本性难题：如何妥善处理专家评价中的分歧。传统基准将评审者间的不一致视为噪声加以消除，但 HCB 开创性地提出“趋同”与“趋异”双重信号框架，指出在可验证维度（如技术正确性）上专家意见趋于一致，而在审美偏好等主观维度上分歧本身即是有价值的信息。这一范式解决了创意领域缺乏统一黄金标准、无法简单归结为一维质量排序的学术困境，为评估生成模型的创造性表现提供了更具生态效度的方法论基础，推动了领域内对评价多样性的重新认识。

实际应用

在实际应用中，HCB 为创意工作者和AI工具开发者提供了可操作的模型选择指南。创意从业者可依据工作阶段（如早期构思需发散性探索，后期精修则追求精准执行）挑选表现最优的模型，实现有针对性的切换，避免因模型同质化导致的创意趋同。对于AI平台与工具开发商而言，HCB 揭示的趋同/趋异信号提示了模型优化的具体方向：在趋同维度上应追求可靠一致，在趋异维度上则需保持可调节性，以满足不同创意个体的个性化需求，从而提升人机协作的成效与满意度。

数据集最近研究