data-archetype/cc12_imagenet21k_512_subset
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/data-archetype/cc12_imagenet21k_512_subset
下载链接
链接失效反馈官方服务:
资源简介:
`cc12_imagenet21k_512_subset`是一个基于CC12/ImageNet21K的512-base分桶子集数据集,主要用于文本到图像的训练或数据集检查。数据集包含1,655,489张图片,这些图片满足以下条件:拥有OK的`caption_gemini`标题、JPEG格式的源文件适合JPEG直通导出,并且足够大以适应512-base分桶而无需放大。数据集采用`bucketed_shards_v1`格式,每个样本包含三个文件:JPEG图像、UTF-8标题文本和每样本元数据。数据集的分桶策略基于SDXL风格的长宽比原型桶,基础分辨率为512。
`cc12_imagenet21k_512_subset` is a 512-base bucketed export of a larger CC12/ImageNet21K recap dataset, intended for text-to-image training or dataset inspection with WebDataset-style loaders. It contains 1,655,489 images that meet the following criteria: have an OK `caption_gemini` caption, are backed by JPEG-family source files suitable for JPEG passthrough export, and are large enough to fit a 512-family bucket without upscaling. The dataset uses the `bucketed_shards_v1` format, with each sample stored as three files: JPEG image bytes, UTF-8 caption text, and per-sample metadata. The bucket family is SDXL-style aspect-ratio proto buckets defined at 512 base.
提供机构:
data-archetype
搜集汇总
数据集介绍

构建方式
cc12_imagenet21k_512_subset 数据集源自一个更大的 CC12/ImageNet21K 重标注工作数据集,经过精心筛选与导出而成。构建过程中,仅保留那些拥有合格 Gemini 模型生成描述(caption_gemini)的样本,同时确保原始文件为 JPEG 家族格式以实现无损直通导出。此外,所有样本必须满足 512 像素基组的分辨率要求,排除任何需要上采样才能适配桶尺寸的图像。最终,从超过 329 万条候选 JPEG 记录中,成功导出了约 165 万张图像,并按照 40 个不同长宽比桶进行分片,形成 1644 个 TAR 分片文件,总存储空间约 109 GB。
特点
该数据集具备多项显著特点。首先,采用 512 像素基础分辨率与 SDXL 风格的长宽比原型桶设计,支持 40 个不同桶类别,使得图像能够依据自身尺寸被分配到最合适的桶中,有效减少训练时的裁剪与变形。其次,采用 JPEG 直通存储模式,不对图像进行重新缩放、裁剪或重新编码,保留原始字节完整性,但需注意桶元数据中的目标尺寸可能与实际编码图像尺寸存在差异。此外,数据集包含详尽的逐样本元数据,如描述变体、选择器索引与源标识,为训练流水线提供了丰富的信息支撑。
使用方法
推荐以 WebDataset 风格加载该数据集,通过 TAR 分片文件进行高效读取。典型使用方法包括在分片层面进行混洗,并对各分片内部样本进行可选随机排序。加载时需解码 .jpg 图像、读取 .txt 文件获取描述文本、解析 .json 文件获取元数据与桶信息。由于 JPEG 直通存储导致实际图像尺寸可能与预期桶尺寸不符,训练流水线应在加载时执行最终的缩放或裁剪操作,以获得精确的桶形状张量。示例代码展示了如何利用 webdataset 库将图像、描述与元数据三元组顺利集成到训练循环中。
背景与挑战
背景概述
cc12_imagenet21k_512_subset是一个面向文本到图像生成任务的高质量图像-文本配对数据集子集,由数据原型(data-archetype)团队于2026年创建,其母集为涵盖CC12与ImageNet21K的大型图像描述数据集。该数据集专注于为扩散模型或自回归图像生成模型提供规范化的训练数据,尤其解决了图像尺寸归一化与描述质量筛选的核心问题。通过选取Gemini模型生成的描述、保留JPEG直通传输的样本,并仅纳入无需上采样即可适配512像素基座桶的图片,研究者得以在109GB磁盘空间中储存超过164万张图像与对应文本。该数据集引入基于SDXL风格宽高比的原型桶体系,为后续高效训练提供了结构化基础,对推动图像生成领域的数据标准化具有重要影响。
当前挑战
该数据集构建过程中面临多重挑战。首先,从大规模的CC12/ImageNet21K原始数据中筛选高质量图像-描述对是核心领域问题:约330万候选样本中仅有半数满足Gemini描述有效性、JPEG兼容性及尺寸要求,超过164万张因过小而被剔除,凸显了现有互联网数据在文本-图像对齐和分辨率多样性方面的不足。其次,技术实施层面需应对宽高比归一化带来的复杂性——采用passthrough_jpeg模式虽保留原始编码效率,却导致存储图像尺寸与桶目标尺寸可能不一致,要求训练管线在加载时进行最终重采样或裁剪。此外,数据集后处理过程还经历了重复及低质量样本的清洗(共移除6213条记录),进一步考验了数据管线的鲁棒性与清洗策略的有效性。
常用场景
经典使用场景
cc12_imagenet21k_512_subset 数据集在文本到图像生成领域扮演着基石角色,其最经典的用途是作为大规模多模态预训练数据源。该数据集精选了超过164万张图片及对应的Gemini高质量描述文本,并通过512像素基座分辨率与40个宽高比桶(如p1024x1024、p1216x832)进行结构化存储,完美适配现代扩散模型如Stable Diffusion XL的训练需求。研究者常将其与WebDataset框架结合,利用分桶分片格式高效加载数据,在保持原始JPEG字节不变的前提下,于运行时按需解码并进行最终缩放裁剪,从而显著提升训练流程的灵活性与吞吐量。
衍生相关工作
该数据集作为cc12_imagenet21k_recap_hq工作集的高质量导出子集,衍生了一系列重要的研究方向与经典工作。其中,最具代表性的包括围绕分桶训练策略的优化方法,如探究不同桶分辨率对生成质量的影响,以及基于JPEG直通导出技术的效率提升方案。此外,工作集中对Gemini描述质量的校验标准与过滤策略,也启发了后续研究者在caption一致性评估、多模态数据清洗等方向上的深入探索,推动了整个文本到图像生成领域数据基础设施的规范化发展。
数据集最近研究
最新研究方向
该数据集聚焦于大规模文本到图像生成任务中的高质量数据筛选与高效存储方案。当前前沿方向集中于利用多模态大模型(如Gemini)生成高质量文本描述,结合JPEG直通导出与宽高比分桶策略,构建适应扩散模型(如SDXL)训练需求的结构化子集。其核心意义在于通过过滤低分辨率样本与缺失描述,确保数据质量与模型训练效率的平衡,同时采用分片存储格式(WebDataset)与对齐训练管线的元数据设计,推动开源社区中可复现、可扩展的数据集构建标准,尤其在图像生成与多模态对齐领域具有标杆价值。
以上内容由遇见数据集搜集并总结生成



