five

Pick-a-Pic|文本到图像生成数据集|用户偏好数据集

收藏
arXiv2023-11-24 更新2024-06-21 收录
文本到图像生成
用户偏好
下载链接:
https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
下载链接
链接失效反馈
资源简介:
Pick-a-Pic是由特拉维夫大学创建的一个大型开放数据集,包含超过50万条文本到图像的提示及用户的真实偏好。数据集通过一个网络应用收集,用户在此应用中生成图像并表达其偏好。该数据集不仅包含提示和生成的图像,还有用户对图像的偏好标签。Pick-a-Pic数据集的创建旨在解决现有文本到图像生成模型缺乏大规模开放的人类偏好数据集的问题。通过利用此数据集,研究者能够训练出能够预测人类偏好的评分函数,如PickScore,该评分函数在预测人类偏好方面表现优于人类专家。此外,数据集的应用领域广泛,可用于改进文本到图像生成模型的评估和提升其生成质量。
提供机构:
特拉维夫大学
创建时间:
2023-05-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
Pick-a-Pic 数据集通过构建一个网络应用程序,允许用户生成图像并指定他们的偏好,从而收集大量的人对文本到图像生成的人类偏好数据。用户在使用该应用程序时,会被呈现两个基于他们输入的提示生成的图像,并要求选择他们更喜欢的图像或表示两者都不显著偏好。这些用户交互被记录下来,包括提示、生成的图像以及偏好标签,从而构建了一个包含超过五十万个示例的公开数据集。
特点
Pick-a-Pic 数据集的特点在于其数据来源于真实用户的真实兴趣,而非众包工人的付费任务,这确保了数据的真实性和质量。数据集中每个示例都包含一个提示、两张生成的图像以及一个表示用户偏好的标签。此外,Pick-a-Pic 数据集还包含了多种模型生成的图像,如 Stable Diffusion 2.1、Dreamlike Photoreal 2.0 和 Stable Diffusion XL 变体,这为文本到图像生成模型的研究提供了多样化的数据基础。
使用方法
使用 Pick-a-Pic 数据集时,研究人员可以首先通过提示生成图像,然后根据用户偏好选择更符合预期的图像。此外,Pick-a-Pic 数据集还可以用于训练评分函数,如 PickScore,该函数能够预测用户对特定生成图像的满意度。PickScore 可以用于模型评估,与 FID 等其他自动评估指标相比,PickScore 与人类偏好排名的相关性更高。最后,PickScore 还可以通过排名的方式提高文本到图像模型的质量,选择评分最高的图像作为最终输出。
背景与挑战
背景概述
近年来,随着自然语言处理和计算机视觉领域的快速发展,文本到图像生成技术取得了显著的进步。然而,这一领域在模拟用户偏好方面仍存在较大的空白。由于缺乏大规模、开放的关于人类对先进图像生成偏好的数据集,这一挑战变得更加突出。为了填补这一空白,研究人员创建了一个名为Pick-a-Pic的Web应用程序,该程序允许用户使用先进的文本到图像模型生成图像,并指定他们的偏好。通过用户的明确同意,收集他们的提示和偏好,创建了Pick-a-Pic数据集,这是一个包含超过五十万个真实用户对模型生成图像偏好的大规模、开放数据集。该数据集的创建不仅为文本到图像生成领域提供了宝贵的数据资源,也为研究用户偏好和模型评价提供了新的视角。
当前挑战
尽管Pick-a-Pic数据集为文本到图像生成领域带来了突破性的进展,但在构建和使用该数据集时仍面临一些挑战。首先,如何有效地收集和处理大规模的用户偏好数据是一个挑战。其次,构建一个能够准确预测用户偏好的评分函数,如PickScore,也是一个技术挑战。此外,如何将PickScore应用于模型评价和改进,以及如何确保数据集的多样性和质量,都是需要进一步研究和解决的问题。
常用场景
经典使用场景
Pick-a-Pic数据集的创建,旨在填补文本到图像生成领域中对用户偏好数据集的空白。通过一个允许用户生成图像并指定其偏好的网络应用程序,该数据集收集了超过五十万个文本到图像提示和真实用户的偏好数据。这些数据被用于训练一个基于CLIP的评分函数PickScore,该函数在预测用户偏好方面表现出超越人类的性能。PickScore不仅能够更好地预测用户对图像的偏好,而且还可以用于模型评估,其与人类排名的相关性比其他自动评估指标更好。
实际应用
Pick-a-Pic数据集在实际应用中具有广泛的应用前景。首先,它可以被用于改进文本到图像生成模型,通过PickScore评分函数选择最符合用户偏好的图像,从而提高生成图像的质量。其次,Pick-a-Pic数据集可以用于开发更符合人类偏好的图像生成模型,从而更好地满足实际应用的需求,如游戏开发、虚拟现实等。最后,Pick-a-Pic数据集还可以被用于研究人类对图像的偏好和审美,为相关领域的研究提供数据支持。
衍生相关工作
Pick-a-Pic数据集的创建和PickScore评分函数的开发,为文本到图像生成领域的研究提供了新的思路和方法。该数据集和相关工作已经引起了研究界的广泛关注,并衍生出了一系列相关的研究工作。例如,一些研究人员已经开始使用Pick-a-Pic数据集来训练和评估新的文本到图像生成模型,并取得了良好的效果。此外,PickScore评分函数也被用于研究人类对图像的偏好和审美,为相关领域的研究提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录