conceptual-captions-12m-webdataset-indexed

Hugging Face2025-09-01 更新2025-09-02 收录

下载链接：

https://huggingface.co/datasets/webshart/conceptual-captions-12m-webdataset-indexed

下载链接

链接失效反馈

官方服务：

资源简介：

Conceptual Captions 12M WebDataset (Indexed)是一个包含约1200万图像和文本对的数据集，旨在用于视觉语言预训练。数据集具有高度多样性，涵盖广泛的视觉概念，使用自然语言描述，并且经过预过滤以确保质量和安全。该数据集采用索引的webshart格式，可以提供更快的随机访问和数据加载。

创建时间：

2025-09-01

原始信息汇总

Conceptual Captions 12M WebDataset (Indexed) 数据集概述

数据集基本信息

名称：Conceptual Captions 12M WebDataset (Indexed)
语言：英语
许可证：other
任务类别：image-to-text、text-to-image
数据规模：10M<n<100M
标签：webdataset、webshart、indexed、conceptual-captions、image-text-dataset、multimodal

数据集描述

这是Conceptual Captions 12M (CC12M)数据集的索引版本，采用扩展的wds webshart格式，相比标准tar归档可实现随机访问和10-20倍更快的数据加载速度。

关键特性

索引格式：每个tar分片附带JSON索引文件，包含每个样本的字节偏移量
性能优势：
- 即时随机访问任何样本，无需顺序读取
- 通过并行HTTP范围请求实现10-20倍更快的批量加载
- 支持选择性下载，仅获取所需样本
- 云优化，在网络存储上高效工作

数据集结构

数据集包含约1200万个图像-文本对，每个样本包含：

{id}.jpg - 图像文件
{id}.txt - 标题文本
{id}.json - 元数据（如可用）

原始数据集信息

CC12M是从网络收集的约1200万个图像-文本对数据集，专为视觉语言预训练设计：

高多样性：涵盖广泛的视觉概念
自然语言：来自网络的替代文本描述
预过滤：经过质量和安全性清理
研究友好：提供图像URL（此版本不包含）

性能对比

操作	标准Tar	索引Tar	加速比
随机样本访问	O(n)	O(1)	1000倍以上
1000个随机样本批量读取	约分钟级	约秒级	10-20倍
流式子集(10%)	完整下载	10%下载	10倍
工作进程启动时间	顺序扫描	即时寻址	100倍以上

许可证

数据集根据原始条款发布，详细信息请参考原始数据集：https://github.com/google-research-datasets/conceptual-captions

引用

bibtex @inproceedings{changpinyo2021cc12m, title = {{Conceptual 12M}: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts}, author = {Changpinyo, Soravit and Sharma, Piyush and Ding, Nan and Soricut, Radu}, booktitle = {CVPR}, year = {2021} }

致谢

原始数据集由Google Research提供
WebDataset格式由LAION团队开发
索引使用webshart v0.2.0执行：https://github.com/bghira/webshart

搜集汇总

数据集介绍

构建方式

在视觉语言预训练领域，数据集的构建方式直接影响模型性能。Conceptual Captions 12M数据集通过自动化网络爬取系统，从公开网页中收集约1200万张图像及其对应的替代文本描述，随后经过多轮质量过滤与安全清洗，确保文本与图像内容的高度相关性。该过程采用分布式处理架构，对原始HTML文档进行解析和去重，最终形成结构化的图像-文本配对数据，为多模态学习提供了坚实基础。

使用方法

研究人员可通过webshart库直接加载该数据集，利用其索引特性实现高效的数据访问。支持全局样本随机访问、跨分片批量读取以及并行数据加载等操作模式。与PyTorch DataLoader的无缝集成允许用户配置多工作进程进行数据流式处理，同时可通过HTTP范围请求实现云端选择性下载，极大优化了分布式训练环境下的数据管道性能。

背景与挑战

背景概述

视觉-语言预训练领域近年来因多模态学习需求的激增而备受关注。Conceptual Captions 12M（CC12M）数据集由谷歌研究院于2021年推出，旨在通过大规模网络爬取的图像-文本对提升模型对长尾视觉概念的识别能力。该数据集包含约1200万对经过质量过滤的样本，其多样化的自然语言描述源自网页替代文本，显著推动了图像生成、文本到图像检索及多模态表示学习的研究进程，成为该领域的重要基准资源。

当前挑战

构建CC12M的核心挑战在于从网络噪声数据中提取高质量图像-文本配对，需克服描述与视觉内容不一致、版权争议及有害信息过滤等问题。技术层面，原始tar归档格式的线性读取特性严重制约大规模数据的访问效率，无法支持随机采样与并行加载。索引化版本通过引入字节偏移元数据，将顺序访问复杂度从O(n)降至O(1)，但需解决分布式存储环境下索引同步、跨分片样本定位及网络传输优化等工程难题。

常用场景

经典使用场景

在视觉-语言预训练研究领域，Conceptual Captions 12M数据集被广泛用于多模态模型的训练与评估。该数据集包含约1200万高质量的图像-文本对，覆盖了丰富的视觉概念和自然语言描述，为模型提供了大规模、多样化的学习素材。研究人员通常利用该数据集训练图像描述生成、文本到图像检索等任务，推动多模态理解与生成技术的发展。

解决学术问题

该数据集有效解决了视觉-语言模型训练中数据规模不足和多样性有限的问题。通过提供从互联网收集的大规模图像-文本对，支持模型学习长尾视觉概念和复杂语义关联。其高质量的数据清洗和标注流程为多模态研究提供了可靠基准，显著提升了模型在零样本和少样本学习场景下的泛化能力，推动了视觉-语言预训练领域的标准化进程。

实际应用

在实际应用层面，该数据集支撑了智能图像检索、自动图像标注和辅助内容创作等场景。基于其训练的模型可应用于电子商务平台的商品图像搜索、社交媒体内容的自动标签生成以及无障碍技术中的图像描述服务。这些应用显著提升了信息检索的效率和用户体验，为多模态人工智能技术的商业化落地提供了重要数据基础。

数据集最近研究