Human Preference Dataset v2 (HPD v2)

Name: Human Preference Dataset v2 (HPD v2)
Creator: 多媒体实验室，香港中文大学
Published: 2023-09-25 16:19:23
License: 暂无描述

arXiv2023-09-25 更新2024-06-21 收录

下载链接：

https://github.com/tgxs002/HPSv2

下载链接

链接失效反馈

官方服务：

资源简介：

HPD v2是一个大规模的人类偏好数据集，专注于文本到图像生成领域的质量评估。数据集包含798,090个人类偏好选择，涉及433,760对图像，这些图像由多种模型根据同一文本提示生成。数据集通过精心设计，避免了以往数据集中的偏见问题，特别是图像来源和文本提示的偏见。通过使用ChatGPT清理提示，数据集确保了提示的清晰和无偏。HPD v2的应用领域主要集中在评估和改进文本到图像生成模型的性能，通过训练Human Preference Score v2 (HPS v2)模型，更准确地预测人类对生成图像的偏好。

HPD v2 is a large-scale human preference dataset dedicated to quality assessment in the text-to-image generation domain. The dataset contains 798,090 human preference selections, covering 433,760 image pairs, where each pair comprises images generated by diverse models based on the same text prompt. Meticulously designed to avoid bias issues prevalent in prior datasets—particularly biases related to image sources and text prompts—the dataset ensures clear and unbiased prompts via ChatGPT-powered prompt cleaning. The primary applications of HPD v2 lie in evaluating and enhancing the performance of text-to-image generation models, as well as training the Human Preference Score v2 (HPS v2) model to more accurately predict human preferences for generated images.

提供机构：

多媒体实验室，香港中文大学

创建时间：

2023-06-16

搜集汇总

数据集介绍

构建方式

在文本到图像生成模型快速发展的背景下，评估生成图像与人类偏好的一致性成为关键挑战。Human Preference Dataset v2 (HPD v2) 的构建采用了系统化的多阶段流程，旨在消除以往数据集中常见的偏见。首先，从 DiffusionDB 和 COCO Captions 收集文本提示，并利用 ChatGPT 进行清洗，移除风格词汇和矛盾描述，形成清晰、无偏的提示语句。随后，基于这些提示，使用九种不同的文本到图像生成模型以及 COCO 的真实图像生成图像对，确保了图像来源的多样性。最后，通过雇佣的57名标注者对433,760对图像进行人工偏好标注，共计获得798,090个二元选择，构成了目前该领域规模最大、标注最严谨的数据集。

特点

HPD v2 的核心特点体现在其规模性、多样性和无偏性。该数据集包含近80万个人类偏好选择，覆盖了43万余张图像，为训练稳健的偏好预测模型提供了充足的数据基础。其多样性不仅体现在图像来源上，涵盖了自回归、扩散和生成对抗网络等多种架构的模型，还体现在提示的广泛性上，结合了用户创作内容和真实图像描述。尤为重要的是，数据集通过提示清洗和多样化的图像源，有效缓解了以往数据集中因模型单一或提示风格化导致的评估偏差，从而能够更公正地评估模型在不同图像分布上的泛化能力。

使用方法

HPD v2 主要服务于文本到图像生成领域的研究与评估。其首要用途是训练人类偏好预测模型，例如基于该数据集微调CLIP得到的Human Preference Score v2 (HPS v2)，该评分模型能够更准确地预测人类对生成图像的偏好。其次，该数据集可作为基准测试集，用于评估和比较不同偏好预测模型的性能。此外，基于HPD v2构建的评估提示集（按动画、概念艺术、绘画、照片分类）为文本到图像生成模型提供了一个稳定、公平且易于使用的评测基准。研究人员可通过计算模型在特定提示集上生成图像的HPS v2平均分，来量化评估模型与人类偏好的一致性。

背景与挑战

背景概述

随着文本到图像生成模型在生成高保真图像方面取得显著进展，如何准确评估这些生成图像的质量成为研究领域的关键挑战。现有评价指标如Inception Score、Fréchet Inception Distance和CLIP Score与人类偏好之间的相关性较弱，导致模型优化方向与人类审美标准存在偏差。为应对这一问题，香港中文大学多媒体实验室与感知与交互智能中心的研究团队于2023年推出了Human Preference Dataset v2（HPD v2）。该数据集通过系统化收集433,760对图像的798,090条人类偏好标注，构建了当前规模最大、覆盖最广的文本到图像生成偏好数据集。其核心研究目标在于建立能够精准预测人类偏好的评估基准，推动生成模型与人类价值观的对齐，为文本到图像合成领域的质量评估提供了关键基础设施。

当前挑战

HPD v2致力于解决文本到图像生成模型评估中人类偏好难以量化的问题，其核心挑战在于克服以往数据集中普遍存在的偏差。首先，先前数据集如HPD v1和ImageReward主要依赖单一模型生成的图像，导致训练的评价模型难以泛化到其他图像分布；其次，用户撰写的提示词常包含矛盾风格词汇与平台特定偏见，影响标注的一致性与公平性。在构建过程中，研究团队面临多维度挑战：需整合9种不同架构的生成模型与真实图像以确保数据多样性；利用ChatGPT清洗提示词以消除风格偏见；通过57名标注员的精细标注流程保障数据质量，同时需处理人类主观偏好带来的标注不一致性。这些挑战的应对使得HPD v2成为更具鲁棒性和泛化能力的评估基准。

常用场景

经典使用场景

在文生图生成模型的评估领域，Human Preference Dataset v2 (HPD v2) 作为一项大规模、高质量的人类偏好标注数据集，其最经典的应用场景在于为人类偏好预测模型提供训练与验证基础。通过收集涵盖九种不同生成模型及真实图像的广泛数据源，并利用ChatGPT对提示词进行去偏清洗，该数据集构建了包含近八十万对图像比较的标注体系。基于此训练出的Human Preference Score v2 (HPS v2) 模型，能够精准预测人类对生成图像的审美倾向，从而成为衡量文生图模型输出质量与人类价值观对齐程度的核心工具。

实际应用

在实际应用层面，基于HPD v2训练的HPS v2模型已被广泛用于对各类文生图生成模型进行系统化基准测试。研究者和开发者利用其对不同风格（如动画、概念艺术、绘画、照片）的提示词集进行模型评分，从而客观比较不同模型在人类偏好维度上的性能优劣。该评估框架不仅服务于学术研究，也为工业界模型迭代提供了量化指导。例如，社区流行的Stable Diffusion变体模型常借助HPS v2分数验证其改进效果，确保了模型优化方向与人类审美趋势保持一致。

衍生相关工作

HPD v2 的发布直接衍生并强化了人类偏好对齐的一系列经典研究工作。其前身HPD v1 首次尝试通过人类反馈优化Stable Diffusion模型，而HPD v2 则以更大规模、更少偏差的数据集推动了该方向的深化。与之相关的ImageReward、Pick-a-Pic等工作同样聚焦于人类偏好数据收集与模型评估，但HPD v2在数据多样性、去偏处理和泛化能力上设立了新标准。基于HPD v2训练的HPS v2模型，进一步成为后续研究如噪声初始化优化、人类对齐微调等算法改进的核心评估工具，形成了从数据到模型再到应用的研究闭环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集