five

zhwang/HPDv2

收藏
Hugging Face2023-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhwang/HPDv2
下载链接
链接失效反馈
官方服务:
资源简介:
Human Preference Dataset v2 (HPD v2) 是一个大规模、干净标注的数据集,用于评估人类对从文本提示生成的图像的偏好。数据集中的提示来源于DiffusionDB和MSCOCO Captions,并通过ChatGPT清理以去除偏见性功能词。人类注释者被要求对由不同文本到图像生成模型从同一提示生成的图像进行排名。总共包含约798k对图像比较,涉及超过430k张图像和107k个提示,其中645k对用于训练分割,153k对用于测试分割。图像来源包括CogView2、DALL·E 2、GLIDE (mini)、Stable Diffusion v1.4、Stable Diffusion v2.0、LAFITE、VQ-GAN+CLIP、VQ-Diffusion、FuseDream和COCO Captions。此外,还提供了一组评估提示(基准提示),涉及测试模型在3200个提示上的表现,每个风格(“动画”、“概念艺术”、“绘画”和“照片”)有800个提示。
提供机构:
zhwang
原始信息汇总

Human Preference Dataset v2 (HPD v2)

数据集概述

HPD v2是一个大规模、干净标注的人类偏好数据集,用于评估文本生成图像的人类偏好。数据集包含约798k对图像比较,涉及超过430k图像和107k提示。

数据来源

  • 提示来源:DiffusionDB和MSCOCO Captions。
  • 图像来源
    • CogView2: 73,697张
    • DALL·E 2: 101,869张
    • GLIDE (mini): 400张
    • Stable Diffusion v1.4: 101,869张
    • Stable Diffusion v2.0: 101,869张
    • LAFITE: 400张
    • VQ-GAN+CLIP: 400张
    • VQ-Diffusion: 400张
    • FuseDream: 400张
    • COCO Captions: 28,272张

数据集结构

  • 文件结构
    • HPD
      • train/
        • {image_id}.jpg
      • test/
        • {image_id}.jpg
      • train.json
      • test.json
      • benchmark/
        • benchmark_imgs/
          • {model_id}/
            • {image_id}.jpg
        • drawbench/
          • {model_id}/
            • {image_id}.jpg
        • anime.json
        • concept-art.json
        • paintings.json
        • photo.json
        • drawbench.json

标注文件结构

  • train.json

    • human_preference: 列表[int]
    • prompt: 字符串
    • file_path: 列表[字符串]
    • user_hash: 字符串
  • test.json

    • prompt: 字符串
    • image_path: 列表[字符串]
    • rank: 列表[int]

评估提示

数据集提供了一套包含3200个提示的评估集,分为“动画”、“概念艺术”、“绘画”和“照片”四种风格,每种风格800个提示。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作