zhwang/HPDv2
收藏Hugging Face2023-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhwang/HPDv2
下载链接
链接失效反馈官方服务:
资源简介:
Human Preference Dataset v2 (HPD v2) 是一个大规模、干净标注的数据集,用于评估人类对从文本提示生成的图像的偏好。数据集中的提示来源于DiffusionDB和MSCOCO Captions,并通过ChatGPT清理以去除偏见性功能词。人类注释者被要求对由不同文本到图像生成模型从同一提示生成的图像进行排名。总共包含约798k对图像比较,涉及超过430k张图像和107k个提示,其中645k对用于训练分割,153k对用于测试分割。图像来源包括CogView2、DALL·E 2、GLIDE (mini)、Stable Diffusion v1.4、Stable Diffusion v2.0、LAFITE、VQ-GAN+CLIP、VQ-Diffusion、FuseDream和COCO Captions。此外,还提供了一组评估提示(基准提示),涉及测试模型在3200个提示上的表现,每个风格(“动画”、“概念艺术”、“绘画”和“照片”)有800个提示。
提供机构:
zhwang
原始信息汇总
Human Preference Dataset v2 (HPD v2)
数据集概述
HPD v2是一个大规模、干净标注的人类偏好数据集,用于评估文本生成图像的人类偏好。数据集包含约798k对图像比较,涉及超过430k图像和107k提示。
数据来源
- 提示来源:DiffusionDB和MSCOCO Captions。
- 图像来源:
- CogView2: 73,697张
- DALL·E 2: 101,869张
- GLIDE (mini): 400张
- Stable Diffusion v1.4: 101,869张
- Stable Diffusion v2.0: 101,869张
- LAFITE: 400张
- VQ-GAN+CLIP: 400张
- VQ-Diffusion: 400张
- FuseDream: 400张
- COCO Captions: 28,272张
数据集结构
- 文件结构:
- HPD
- train/
- {image_id}.jpg
- test/
- {image_id}.jpg
- train.json
- test.json
- benchmark/
- benchmark_imgs/
- {model_id}/
- {image_id}.jpg
- {model_id}/
- drawbench/
- {model_id}/
- {image_id}.jpg
- {model_id}/
- anime.json
- concept-art.json
- paintings.json
- photo.json
- drawbench.json
- benchmark_imgs/
- train/
- HPD
标注文件结构
-
train.json:
- human_preference: 列表[int]
- prompt: 字符串
- file_path: 列表[字符串]
- user_hash: 字符串
-
test.json:
- prompt: 字符串
- image_path: 列表[字符串]
- rank: 列表[int]
评估提示
数据集提供了一套包含3200个提示的评估集,分为“动画”、“概念艺术”、“绘画”和“照片”四种风格,每种风格800个提示。



