Pick-a-Pic

Name: Pick-a-Pic
Creator: 特拉维夫大学
Published: 2023-11-24 01:07:58
License: 暂无描述

arXiv2023-11-24 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/yuvalkirstain/pickapic_v1

下载链接

链接失效反馈

官方服务：

资源简介：

Pick-a-Pic是由特拉维夫大学创建的一个大型开放数据集，包含超过50万条文本到图像的提示及用户的真实偏好。数据集通过一个网络应用收集，用户在此应用中生成图像并表达其偏好。该数据集不仅包含提示和生成的图像，还有用户对图像的偏好标签。Pick-a-Pic数据集的创建旨在解决现有文本到图像生成模型缺乏大规模开放的人类偏好数据集的问题。通过利用此数据集，研究者能够训练出能够预测人类偏好的评分函数，如PickScore，该评分函数在预测人类偏好方面表现优于人类专家。此外，数据集的应用领域广泛，可用于改进文本到图像生成模型的评估和提升其生成质量。

Pick-a-Pic is a large-scale open dataset developed by Tel Aviv University, which contains over 500,000 text-to-image prompts and users' real preferences. The dataset was collected via a web application, where users generated images and expressed their preferences. This dataset not only includes the prompts and generated images, but also users' preference labels for the images. The Pick-a-Pic dataset was created to address the lack of large-scale open human preference datasets for existing text-to-image generation models. By leveraging this dataset, researchers can train scoring functions that predict human preferences, such as PickScore, which outperforms human experts in predicting human preferences. Additionally, the dataset has broad applications, and can be used to improve the evaluation of text-to-image generation models and enhance the quality of their generated outputs.

提供机构：

特拉维夫大学

创建时间：

2023-05-03

搜集汇总

数据集介绍

构建方式

Pick-a-Pic 数据集通过构建一个网络应用程序，允许用户生成图像并指定他们的偏好，从而收集大量的人对文本到图像生成的人类偏好数据。用户在使用该应用程序时，会被呈现两个基于他们输入的提示生成的图像，并要求选择他们更喜欢的图像或表示两者都不显著偏好。这些用户交互被记录下来，包括提示、生成的图像以及偏好标签，从而构建了一个包含超过五十万个示例的公开数据集。

特点

Pick-a-Pic 数据集的特点在于其数据来源于真实用户的真实兴趣，而非众包工人的付费任务，这确保了数据的真实性和质量。数据集中每个示例都包含一个提示、两张生成的图像以及一个表示用户偏好的标签。此外，Pick-a-Pic 数据集还包含了多种模型生成的图像，如 Stable Diffusion 2.1、Dreamlike Photoreal 2.0 和 Stable Diffusion XL 变体，这为文本到图像生成模型的研究提供了多样化的数据基础。

使用方法

使用 Pick-a-Pic 数据集时，研究人员可以首先通过提示生成图像，然后根据用户偏好选择更符合预期的图像。此外，Pick-a-Pic 数据集还可以用于训练评分函数，如 PickScore，该函数能够预测用户对特定生成图像的满意度。PickScore 可以用于模型评估，与 FID 等其他自动评估指标相比，PickScore 与人类偏好排名的相关性更高。最后，PickScore 还可以通过排名的方式提高文本到图像模型的质量，选择评分最高的图像作为最终输出。

背景与挑战

背景概述

近年来，随着自然语言处理和计算机视觉领域的快速发展，文本到图像生成技术取得了显著的进步。然而，这一领域在模拟用户偏好方面仍存在较大的空白。由于缺乏大规模、开放的关于人类对先进图像生成偏好的数据集，这一挑战变得更加突出。为了填补这一空白，研究人员创建了一个名为Pick-a-Pic的Web应用程序，该程序允许用户使用先进的文本到图像模型生成图像，并指定他们的偏好。通过用户的明确同意，收集他们的提示和偏好，创建了Pick-a-Pic数据集，这是一个包含超过五十万个真实用户对模型生成图像偏好的大规模、开放数据集。该数据集的创建不仅为文本到图像生成领域提供了宝贵的数据资源，也为研究用户偏好和模型评价提供了新的视角。

当前挑战

尽管Pick-a-Pic数据集为文本到图像生成领域带来了突破性的进展，但在构建和使用该数据集时仍面临一些挑战。首先，如何有效地收集和处理大规模的用户偏好数据是一个挑战。其次，构建一个能够准确预测用户偏好的评分函数，如PickScore，也是一个技术挑战。此外，如何将PickScore应用于模型评价和改进，以及如何确保数据集的多样性和质量，都是需要进一步研究和解决的问题。

常用场景

经典使用场景

Pick-a-Pic数据集的创建，旨在填补文本到图像生成领域中对用户偏好数据集的空白。通过一个允许用户生成图像并指定其偏好的网络应用程序，该数据集收集了超过五十万个文本到图像提示和真实用户的偏好数据。这些数据被用于训练一个基于CLIP的评分函数PickScore，该函数在预测用户偏好方面表现出超越人类的性能。PickScore不仅能够更好地预测用户对图像的偏好，而且还可以用于模型评估，其与人类排名的相关性比其他自动评估指标更好。

实际应用

Pick-a-Pic数据集在实际应用中具有广泛的应用前景。首先，它可以被用于改进文本到图像生成模型，通过PickScore评分函数选择最符合用户偏好的图像，从而提高生成图像的质量。其次，Pick-a-Pic数据集可以用于开发更符合人类偏好的图像生成模型，从而更好地满足实际应用的需求，如游戏开发、虚拟现实等。最后，Pick-a-Pic数据集还可以被用于研究人类对图像的偏好和审美，为相关领域的研究提供数据支持。

衍生相关工作

Pick-a-Pic数据集的创建和PickScore评分函数的开发，为文本到图像生成领域的研究提供了新的思路和方法。该数据集和相关工作已经引起了研究界的广泛关注，并衍生出了一系列相关的研究工作。例如，一些研究人员已经开始使用Pick-a-Pic数据集来训练和评估新的文本到图像生成模型，并取得了良好的效果。此外，PickScore评分函数也被用于研究人类对图像的偏好和审美，为相关领域的研究提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集