conceptual-captions-12m-webdataset-indexed
收藏Hugging Face2025-09-01 更新2025-09-02 收录
下载链接:
https://huggingface.co/datasets/webshart/conceptual-captions-12m-webdataset-indexed
下载链接
链接失效反馈官方服务:
资源简介:
Conceptual Captions 12M WebDataset (Indexed)是一个包含约1200万图像和文本对的数据集,旨在用于视觉语言预训练。数据集具有高度多样性,涵盖广泛的视觉概念,使用自然语言描述,并且经过预过滤以确保质量和安全。该数据集采用索引的webshart格式,可以提供更快的随机访问和数据加载。
创建时间:
2025-09-01
原始信息汇总
Conceptual Captions 12M WebDataset (Indexed) 数据集概述
数据集基本信息
- 名称:Conceptual Captions 12M WebDataset (Indexed)
- 语言:英语
- 许可证:other
- 任务类别:image-to-text、text-to-image
- 数据规模:10M<n<100M
- 标签:webdataset、webshart、indexed、conceptual-captions、image-text-dataset、multimodal
数据集描述
这是Conceptual Captions 12M (CC12M)数据集的索引版本,采用扩展的wds webshart格式,相比标准tar归档可实现随机访问和10-20倍更快的数据加载速度。
关键特性
- 索引格式:每个tar分片附带JSON索引文件,包含每个样本的字节偏移量
- 性能优势:
- 即时随机访问任何样本,无需顺序读取
- 通过并行HTTP范围请求实现10-20倍更快的批量加载
- 支持选择性下载,仅获取所需样本
- 云优化,在网络存储上高效工作
数据集结构
数据集包含约1200万个图像-文本对,每个样本包含:
{id}.jpg- 图像文件{id}.txt- 标题文本{id}.json- 元数据(如可用)
原始数据集信息
CC12M是从网络收集的约1200万个图像-文本对数据集,专为视觉语言预训练设计:
- 高多样性:涵盖广泛的视觉概念
- 自然语言:来自网络的替代文本描述
- 预过滤:经过质量和安全性清理
- 研究友好:提供图像URL(此版本不包含)
性能对比
| 操作 | 标准Tar | 索引Tar | 加速比 |
|---|---|---|---|
| 随机样本访问 | O(n) | O(1) | 1000倍以上 |
| 1000个随机样本批量读取 | 约分钟级 | 约秒级 | 10-20倍 |
| 流式子集(10%) | 完整下载 | 10%下载 | 10倍 |
| 工作进程启动时间 | 顺序扫描 | 即时寻址 | 100倍以上 |
许可证
数据集根据原始条款发布,详细信息请参考原始数据集:https://github.com/google-research-datasets/conceptual-captions
引用
bibtex @inproceedings{changpinyo2021cc12m, title = {{Conceptual 12M}: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts}, author = {Changpinyo, Soravit and Sharma, Piyush and Ding, Nan and Soricut, Radu}, booktitle = {CVPR}, year = {2021} }
致谢
- 原始数据集由Google Research提供
- WebDataset格式由LAION团队开发
- 索引使用webshart v0.2.0执行:https://github.com/bghira/webshart
搜集汇总
数据集介绍

构建方式
在视觉语言预训练领域,数据集的构建方式直接影响模型性能。Conceptual Captions 12M数据集通过自动化网络爬取系统,从公开网页中收集约1200万张图像及其对应的替代文本描述,随后经过多轮质量过滤与安全清洗,确保文本与图像内容的高度相关性。该过程采用分布式处理架构,对原始HTML文档进行解析和去重,最终形成结构化的图像-文本配对数据,为多模态学习提供了坚实基础。
使用方法
研究人员可通过webshart库直接加载该数据集,利用其索引特性实现高效的数据访问。支持全局样本随机访问、跨分片批量读取以及并行数据加载等操作模式。与PyTorch DataLoader的无缝集成允许用户配置多工作进程进行数据流式处理,同时可通过HTTP范围请求实现云端选择性下载,极大优化了分布式训练环境下的数据管道性能。
背景与挑战
背景概述
视觉-语言预训练领域近年来因多模态学习需求的激增而备受关注。Conceptual Captions 12M(CC12M)数据集由谷歌研究院于2021年推出,旨在通过大规模网络爬取的图像-文本对提升模型对长尾视觉概念的识别能力。该数据集包含约1200万对经过质量过滤的样本,其多样化的自然语言描述源自网页替代文本,显著推动了图像生成、文本到图像检索及多模态表示学习的研究进程,成为该领域的重要基准资源。
当前挑战
构建CC12M的核心挑战在于从网络噪声数据中提取高质量图像-文本配对,需克服描述与视觉内容不一致、版权争议及有害信息过滤等问题。技术层面,原始tar归档格式的线性读取特性严重制约大规模数据的访问效率,无法支持随机采样与并行加载。索引化版本通过引入字节偏移元数据,将顺序访问复杂度从O(n)降至O(1),但需解决分布式存储环境下索引同步、跨分片样本定位及网络传输优化等工程难题。
常用场景
经典使用场景
在视觉-语言预训练研究领域,Conceptual Captions 12M数据集被广泛用于多模态模型的训练与评估。该数据集包含约1200万高质量的图像-文本对,覆盖了丰富的视觉概念和自然语言描述,为模型提供了大规模、多样化的学习素材。研究人员通常利用该数据集训练图像描述生成、文本到图像检索等任务,推动多模态理解与生成技术的发展。
解决学术问题
该数据集有效解决了视觉-语言模型训练中数据规模不足和多样性有限的问题。通过提供从互联网收集的大规模图像-文本对,支持模型学习长尾视觉概念和复杂语义关联。其高质量的数据清洗和标注流程为多模态研究提供了可靠基准,显著提升了模型在零样本和少样本学习场景下的泛化能力,推动了视觉-语言预训练领域的标准化进程。
实际应用
在实际应用层面,该数据集支撑了智能图像检索、自动图像标注和辅助内容创作等场景。基于其训练的模型可应用于电子商务平台的商品图像搜索、社交媒体内容的自动标签生成以及无障碍技术中的图像描述服务。这些应用显著提升了信息检索的效率和用户体验,为多模态人工智能技术的商业化落地提供了重要数据基础。
数据集最近研究
最新研究方向
在视觉-语言多模态学习领域,Conceptual Captions 12M数据集通过索引化重构推动了大规模预训练的效率革命。当前研究聚焦于索引化数据格式对分布式训练的加速效应,结合云计算环境实现毫秒级样本随机访问,显著降低长尾视觉概念检索的时空复杂度。这一技术突破正被应用于多模态大模型的增量学习与联邦学习场景,通过并行化数据流处理机制支持超大规模负样本挖掘和动态课程学习,为构建下一代视觉-语言通用模型提供基础设施支撑。
以上内容由遇见数据集搜集并总结生成



