pickapic-anonymous/pickapic_v1
收藏Hugging Face2023-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pickapic-anonymous/pickapic_v1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: are_different
dtype: bool
- name: best_image_uid
dtype: string
- name: caption
dtype: string
- name: created_at
dtype: timestamp[ns]
- name: has_label
dtype: bool
- name: image_0_uid
dtype: string
- name: image_0_url
dtype: string
- name: image_1_uid
dtype: string
- name: image_1_url
dtype: string
- name: jpg_0
dtype: binary
- name: jpg_1
dtype: binary
- name: label_0
dtype: float64
- name: label_1
dtype: float64
- name: model_0
dtype: string
- name: model_1
dtype: string
- name: ranking_id
dtype: int64
- name: user_id
dtype: int64
- name: num_example_per_prompt
dtype: int64
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 193273338802
num_examples: 583747
- name: validation
num_bytes: 5638295249
num_examples: 17439
- name: test
num_bytes: 4621428929
num_examples: 14073
- name: validation_unique
num_bytes: 178723392
num_examples: 500
- name: test_unique
num_bytes: 178099641
num_examples: 500
download_size: 202289409202
dataset_size: 203889886013
---
# Dataset Card for "pickapic_v1"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
pickapic-anonymous
原始信息汇总
数据集概述
数据集名称
- 名称: pickapic_v1
数据集特征
- 特征列表:
are_different: 布尔型best_image_uid: 字符串型caption: 字符串型created_at: 时间戳(纳秒)has_label: 布尔型image_0_uid: 字符串型image_0_url: 字符串型image_1_uid: 字符串型image_1_url: 字符串型jpg_0: 二进制型jpg_1: 二进制型label_0: 浮点型label_1: 浮点型model_0: 字符串型model_1: 字符串型ranking_id: 整数型user_id: 整数型num_example_per_prompt: 整数型__index_level_0__: 整数型
数据集分割
- 分割详情:
train: 583747个样本,193273338802字节validation: 17439个样本,5638295249字节test: 14073个样本,4621428929字节validation_unique: 500个样本,178723392字节test_unique: 500个样本,178099641字节
数据集大小
- 下载大小: 202289409202字节
- 数据集大小: 203889886013字节
搜集汇总
数据集介绍

背景与挑战
背景概述
pickapic_v1是一个用于文本到图像生成模型人类偏好评估的大规模数据集,包含约61.6万条数据,总大小202GB。数据集提供了文本提示(caption)、由不同模型(如SDXL、DP2.0)生成的两幅图像URL、以及人类标注的偏好标签(label_0/label_1),可用于训练和评估图像生成模型的偏好对齐能力。数据已划分为训练集、验证集和测试集,格式为parquet。
以上内容由遇见数据集搜集并总结生成



