yuvalkirstain/PickaPic
收藏Hugging Face2023-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yuvalkirstain/PickaPic
下载链接
链接失效反馈官方服务:
资源简介:
# Pick a Pic
* We are periodically uploading (almost) all of the collected data from [pickapic.io](https://pickapic.io/).
* We have three different datasets:
* [Images dataset](https://huggingface.co/datasets/yuvalkirstain/PickaPic-images) - includes the images that were created as part of Pick a Pic.
* [Rankings dataset](https://huggingface.co/datasets/yuvalkirstain/PickaPic-rankings) - includes the rankings that users submitted in Pick a Pic.
* [Downloads dataset](https://huggingface.co/datasets/yuvalkirstain/PickaPic-downloads) - includes the images that users downloaded in Pick a Pic.
* Help us in creating the largest publicly available human-feedback for text-to-image dataset!
* You can reach us on [discord](https://discord.gg/qKEVkF85DT) or by [mail](pickapic.io@gmail.com).
# 选图(Pick a Pic)
* 我们将定期上传(几乎全部)从[pickapic.io](https://pickapic.io/)收集到的数据集。
* 我们共推出三类不同数据集:
* [图像数据集(Images dataset)](https://huggingface.co/datasets/yuvalkirstain/PickaPic-images) - 收录了Pick a Pic项目中生成的所有图像。
* [排名数据集(Rankings dataset)](https://huggingface.co/datasets/yuvalkirstain/PickaPic-rankings) - 收录了用户在Pick a Pic平台提交的图像排名数据。
* [下载数据集(Downloads dataset)](https://huggingface.co/datasets/yuvalkirstain/PickaPic-downloads) - 收录了用户在Pick a Pic平台下载的图像。
* 诚邀您助力打造全球规模最大的公开可用文本到图像人机反馈数据集!
* 您可通过[Discord](https://discord.gg/qKEVkF85DT)或邮箱pickapic.io@gmail.com与我们取得联系。
提供机构:
yuvalkirstain
原始信息汇总
数据集概述
数据集名称
Pick a Pic
数据集类型
- Images dataset - 包含在Pick a Pic中创建的图像。
- Rankings dataset - 包含用户在Pick a Pic中提交的排名。
- Downloads dataset - 包含用户在Pick a Pic中下载的图像。
数据集来源
数据来源于pickapic.io,定期上传收集的数据。
数据集目的
创建最大的公开可用的人类反馈文本到图像数据集。
搜集汇总
数据集介绍

构建方式
在文本到图像生成模型快速发展的背景下,PickaPic数据集通过在线平台pickapic.io系统性地收集人类反馈数据。其构建过程依托于一个开放的众包平台,邀请全球用户参与对AI生成图像的偏好评判与选择。平台定期将收集到的图像、用户排名及下载记录等原始数据,以结构化方式整理并上传至HuggingFace,形成三个相互关联的子数据集,共同构建了一个大规模、动态更新的人类偏好标注库。
特点
该数据集的核心特点在于其纯粹的人类反馈来源与多维度结构。数据集严格区分了生成图像、用户排名行为及下载行为三类信息,为研究提供了细粒度的偏好信号。作为当前公开领域内规模领先的文本到图像人类反馈数据集,其数据来源于真实、多样的用户群体互动,确保了偏好标注的生态效度。这种结构不仅支持对图像质量的直接评估,还能深入分析用户行为背后的偏好模式。
使用方法
研究者可依据具体目标灵活调用PickaPic的三个子数据集。对于模型训练与评估,主要利用Rankings数据集中的成对比较或排序信息,以优化生成模型的人类偏好对齐。Images数据集提供了原始的生成图像及其文本提示,可用于质量分析或构建新的评测基准。Downloads数据集则揭示了用户的主动选择行为,为理解实用场景下的偏好提供了补充视角。各数据集可通过HuggingFace平台便捷获取与集成。
背景与挑战
背景概述
PickaPic数据集由研究人员Yuval Kirstain及其团队于2023年构建,旨在通过大规模众包平台pickapic.io收集人类对文本生成图像模型的反馈数据。该数据集的核心研究问题聚焦于如何量化评估生成式人工智能在视觉内容创作中的质量与人类偏好对齐程度,为文本到图像模型的优化与基准测试提供了关键的人类标注资源。其影响力不仅体现在推动了生成模型评估从传统指标向人类中心化标准的转变,还为多模态人工智能的交互设计奠定了实证基础。
当前挑战
该数据集致力于解决文本到图像生成领域的人类偏好评估挑战,即如何系统性地捕捉并量化人类对生成图像质量、美学及语义一致性的主观判断。在构建过程中,面临的主要挑战包括:确保众包标注过程中用户反馈的多样性与可靠性,避免因文化背景或个人偏好导致的标注偏差;处理大规模图像数据与排名信息的高效存储与同步,以维持数据集的完整性与可访问性;以及设计激励机制以持续吸引全球用户参与,从而保障数据收集的规模与时效性。
常用场景
经典使用场景
在文本到图像生成领域,PickaPic数据集以其大规模的人类反馈数据,为模型评估与优化提供了关键支持。该数据集通过收集用户对生成图像的排名与下载行为,构建了一个丰富的偏好标注库,使得研究人员能够基于真实的人类审美标准,训练或微调生成模型,以提升图像的质量、多样性与用户满意度。这一场景不仅推动了生成式人工智能的进步,也为跨模态理解研究奠定了实证基础。
实际应用
在实际应用中,PickaPic数据集被广泛用于优化商业和开源文本到图像生成系统。例如,它可以指导模型训练以生成更符合用户期望的广告素材、艺术创作或教育可视化内容。通过分析用户的排名与下载行为,企业能够精准调整生成策略,提升产品的用户体验与市场竞争力。此外,该数据集也为内容审核、偏见检测等社会责任应用提供了数据基础,助力构建更公平、可靠的生成技术。
衍生相关工作
围绕PickaPic数据集,已衍生出多项经典研究工作。例如,基于其排名数据训练的偏好模型被集成到Stable Diffusion等开源框架中,以改进图像质量;同时,该数据集也支撑了人类反馈强化学习在文本到图像领域的探索,如相关研究通过微调策略使生成结果更贴合人类价值观。这些工作不仅扩展了数据集的学术价值,还推动了社区在可评估生成、对齐技术等方面的持续创新。
以上内容由遇见数据集搜集并总结生成



