Pick-a-Pic

arXiv2025-09-30 收录

下载链接：

https://github.com/yuvalkirstain/pickscore

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了由Dreamlike和SDXL-beta生成的图像对，每对图像都对应着一个人工偏好标签。该数据集被用于进行微调和评估工作。

This dataset consists of image pairs generated by Dreamlike and SDXL-beta, with each pair paired with a human preference label. This dataset is utilized for fine-tuning and evaluation tasks.

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，收集用户偏好数据通常局限于大型企业，限制了公共研究的发展。为填补这一空白，研究者构建了一个名为Pick-a-Pic的网页应用，允许用户生成图像并表达偏好。通过该应用，用户提交创意提示词，系统生成两张图像，用户选择偏好图像或标记平局。数据收集过程中，用户需通过Gmail或Discord账户验证身份，并采取多种质量控制措施，如监控异常行为、过滤NSFW内容及限制交互次数。最终，数据集包含超过50万个样本，涵盖约3.5万个独特提示词，每个样本包括提示词、两张生成图像及偏好标签。

特点

Pick-a-Pic数据集的核心优势在于其源自真实用户的自然偏好，而非付费众包工人，从而更真实地反映用户意图。数据集覆盖多种骨干模型（如Stable Diffusion 2.1、Dreamlike Photoreal 2.0及Stable Diffusion XL变体）和不同分类器自由引导尺度，增强了多样性。此外，数据集采用两图像加平局的标注策略，在用户参与度和标注一致性上优于其他方案。通过持续更新，数据集已扩展至超过100万个样本，并定期过滤NSFW内容，确保数据质量与可靠性。

使用方法

Pick-a-Pic数据集支持多种应用场景。研究者可利用其训练偏好预测模型，如基于CLIP-H微调的PickScore评分函数，在预测用户偏好上超越人类专家（准确率达70.5%）。在模型评估中，建议使用Pick-a-Pic的提示词替代MS-COCO，因其更贴近真实用户需求，且PickScore与人类判断的斯皮尔曼相关系数达0.917，显著优于FID等传统指标。此外，通过生成多张图像并利用PickScore选择最优结果，可提升文本到图像模型的生成质量，在用户偏好测试中胜率超过71%。

背景与挑战

背景概述

在文本到图像生成领域，用户偏好数据的匮乏长期制约着模型与人类意图的对齐。为填补这一空白，来自特拉维夫大学与Stability AI的研究团队于2023年构建了Pick-a-Pic数据集，该数据集通过一个简易的Web应用收集真实用户的创造性提示词及其对生成图像的成对偏好判断，最终包含超过50万条标注样本。这一开放资源不仅为评估生成模型提供了更具生态效度的提示词分布，还催生了超越人类专家预测准确率的PickScore评分函数，显著推动了该领域评估标准的革新，成为连接用户真实需求与模型优化的重要桥梁。

当前挑战

Pick-a-Pic数据集面临的核心挑战首先源于用户偏好预测的固有复杂性：用户的创意意图与提示词表述之间存在信息不对等，使得即使是人类标注者也难以准确推断原始用户偏好。其次，在数据构建过程中，团队需应对多重质量控制难题，包括过滤不当内容、防止恶意用户滥用系统、平衡不同生成模型与引导尺度的采样分布，以及确保跨用户标注的一致性。此外，数据集还需持续更新以降低NSFW内容比例，并维持用户参与度以获取足够规模的偏好样本，这些均对数据集的长期可用性与可靠性提出了严峻考验。

常用场景

经典使用场景

在文本到图像生成领域，Pick-a-Pic 数据集的核心应用在于为研究者提供一种基于真实用户偏好而非人工标注的评估与训练资源。该数据集包含超过五十万条样本，每条样本由用户提供的提示词、两幅生成图像以及用户对两者之间偏好的标注构成。其经典使用场景体现在训练如 PickScore 这样的偏好预测评分函数上，该函数通过微调 CLIP 模型，在预测用户对生成图像的满意度方面达到甚至超越人类专家的水平。此外，该数据集还用于替代传统的 MS-COCO 提示词集，以更贴近真实用户意图的分布来评估文本到图像模型的生成质量。

解决学术问题

Pick-a-Pic 数据集有效解决了文本到图像生成研究中长期缺乏大规模、开放的人类偏好数据集这一关键瓶颈。传统评价指标如 FID 仅关注生成图像与真实图像集合的分布相似性，却忽视了提示词与图像之间的语义对齐以及用户主观偏好；而该数据集通过收集真实用户在自然交互过程中的偏好判断，为学术研究提供了更贴近实际需求的标注数据。基于此训练的 PickScore 评分函数在模型评估任务中与人类排序的斯皮尔曼相关系数高达 0.790，远超 FID（-0.900）和 CLIP-H（0.313），从而推动了从单纯追求图像真实性向兼顾用户意图与审美偏好的范式转变，为后续的模型对齐与强化学习研究奠定了数据基础。

衍生相关工作

Pick-a-Pic 数据集催生了一系列重要的后续研究工作。首先，其提出的 PickScore 评分函数因其超人类偏好预测能力，被广泛用作评估新生成模型的基准指标，取代了传统的 FID 和 CLIP 评分。其次，该数据集启发了基于人类反馈的强化学习（RLHF）在图像生成领域的应用探索，研究者尝试利用 Pick-a-Pic 中的偏好标签来微调扩散模型，使其输出更符合用户预期。此外，该数据集的出现也推动了如 HPS 和 ImageReward 等同类偏好数据集与评分函数的比较研究，促进了社区对数据规模、标注质量与模型性能之间关系的深入理解，为构建更公正、更全面的生成模型评价体系提供了重要参照。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集