Pick-High Dataset

github2025-08-05 更新2025-08-06 收录

下载链接：

https://github.com/BarretBa/ICTHP

下载链接

链接失效反馈

官方服务：

资源简介：

Pick-High是一个高质量的数据集，包含360,000张由SD3.5-Large生成的图像，这些图像使用了Claude-3.5-Sonnet链式思维推理生成的精细提示，并结合Pick-a-Pic形成带有全面偏好注释的图像三元组，用于训练和评估奖励模型。

Pick-High is a high-quality dataset containing 360,000 images generated by SD3.5-Large. These images utilize fine-grained prompts created via Claude-3.5-Sonnet's Chain-of-Thought reasoning, and are combined with Pick-a-Pic to form image triplets with comprehensive preference annotations, which are designed for training and evaluating reward models.

创建时间：

2025-07-28

原始信息汇总

ICTHP数据集概述

数据集基本信息

名称: Pick-High Dataset
用途: 用于训练和评估高质量图像生成的奖励模型
规模: 包含360,000张图像
生成方式: 使用SD3.5-Large模型生成，提示词通过Claude-3.5-Sonnet链式思考推理优化
标注类型: 图像三元组偏好标注

数据集结构

Pick-High-Dataset/ ├── Pick-High/ │ ├── train.pkl # 训练集标注 │ ├── val.pkl # 验证集标注 │ └── test.pkl # 测试集标注 ├── pick_easy_img/ # 基础质量图像 │ └── train/val/test/ └── pick_refine_img/ # 高质量优化图像 └── train/val/test/

获取方式

Hugging Face: https://huggingface.co/datasets/8y/Pick-High-Dataset
Git LFS: git clone https://huggingface.co/datasets/8y/Pick-High-Dataset
datasets库: load_dataset(8y/Pick-High-Dataset)

引用信息

bibtex @misc{ba2025enhancingrewardmodelshighquality, title={Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment}, author={Ying Ba and Tianyu Zhang and Yalong Bai and Wenyi Mo and Tao Liang and Bing Su and Ji-Rong Wen}, year={2025}, eprint={2507.19002}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.19002}, }

许可证

类型: MIT License

搜集汇总

数据集介绍

构建方式

在高质量图像生成领域，Pick-High数据集的构建采用了多阶段协同方法。研究团队首先利用SD3.5-Large模型生成基础图像，再通过Claude-3.5-Sonnet的链式推理生成优化提示词，最终结合Pick-a-Pic框架构建包含36万张图像的三元组数据集。该数据集采用层次化标注策略，每个图像三元组均包含详尽的人类偏好标注，确保数据质量满足奖励模型训练需求。

特点

作为面向图像生成质量评估的专用数据集，Pick-High具有三个显著特征：其一是覆盖广泛的视觉风格，包含从基础到精修的多层次图像样本；其二是采用对比学习框架设计，每个样本包含优选、中等和劣质三个等级的图像；其三是标注维度全面，不仅包含文本-图像对齐度评分，还整合了人类审美偏好的多维度评估。这些特性使其成为训练跨模态评估模型的理想基准。

使用方法

使用该数据集时，研究人员可通过Hugging Face平台直接加载完整数据集，或按需下载特定子集。数据集采用标准化的PKL格式存储标注信息，与图像文件形成明确映射关系。典型应用场景包括：通过train/val/test划分进行模型训练与验证，利用图像三元组实现对比学习，或提取单张图像特征进行质量评估。数据集配套提供标准化的数据加载脚本，支持灵活的参数配置以满足不同研究需求。

背景与挑战

背景概述

Pick-High数据集由ICTHP团队于2025年构建，旨在解决生成式人工智能领域中高质量图像评估的瓶颈问题。该数据集包含36万张通过SD3.5-Large模型生成的图像，并采用Claude-3.5-Sonnet的链式推理生成优化提示词，结合Pick-a-Pic框架形成带有完整偏好标注的图像三元组。研究团队创新性地提出ICT和HP双奖励模型架构，突破传统文本-图像对齐评估体系对视觉丰富度的偏见，为图像生成质量评估建立了新范式。该数据集作为ICCV 2025会议论文的核心贡献，显著推动了生成式AI在艺术创作、广告设计等领域的应用进展。

当前挑战

构建过程中面临多重技术挑战：在数据采集阶段，需要平衡生成图像的多样性与质量，避免常见扩散模型产生的模式坍塌问题；标注环节需设计严谨的人类偏好收集机制，消除主观判断带来的噪声干扰。模型开发层面，ICT奖励模型需克服传统评估方法对复杂视觉元素的误判，而HP模型则要准确捕捉超越语义对齐的美学特征。领域应用方面，现有评估体系难以量化视觉丰富度与提示词遵从度的辩证关系，这对建立兼顾创意性与忠实度的新型评价指标提出严峻考验。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，Pick-High数据集为评估和改进图像生成模型的奖励机制提供了关键基准。该数据集通过精心构建的图像三元组和细致的人类偏好标注，成为训练文本-图像对齐模型与美学评估模型的黄金标准。研究人员利用其多层次的质量标注体系，能够系统性地分析生成图像在语义保真度与视觉美感之间的平衡关系，为优化扩散模型和生成对抗网络的输出质量提供了量化依据。

衍生相关工作

基于Pick-High数据集的开源特性，研究社区已衍生出多个具有影响力的扩展工作。CLIP-Human项目将其人类偏好数据与生理信号测量相结合，开发了更精细的神经美学评估模型；Diffusion-Reward则创新性地将数据集中的三元组比较转化为稳定扩散模型的直接优化目标。这些工作共同构成了生成式AI质量控制领域的重要技术脉络，持续推动着图像合成技术向更高保真度发展。

数据集最近研究