apple/DataComp-12M

Name: apple/DataComp-12M
Creator: apple
Published: 2025-02-28 18:39:29
License: 暂无描述

Hugging Face2025-02-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/apple/DataComp-12M

下载链接

链接失效反馈

官方服务：

资源简介：

DataCompDR是一个图像文本数据集，是DataComp数据集的增强版本。我们通过多模态数据集强化策略对DataComp数据集进行了增强。具体来说，我们创建了DataCompDR-1B和DataCompDR-12M，分别是对DataComp-1B（BestPool过滤）和12.8M样本的均匀子集DataCompDR-12M的增强。我们使用OpenCLIP中的`coca_ViT-L-14`模型为每张图像生成5个合成标题，并对图像进行强随机增强（DataCompDR-1B为10次，DataCompDR-12M为30次）。我们计算了两个强教师模型（`ViT-L-14`，预训练权重为`datacomp_xl_s13b_b90k`和openai在OpenCLIP中）在增强图像以及真实和合成标题上的嵌入。嵌入是1536维的，由2x768维向量连接而成。DataCompDR的一个样本是一个三元组，包含一个随机增强的图像、一个真实标题和一个随机选取的合成标题。

DataCompDR is an image-text dataset and an enhancement to the DataComp dataset. We reinforce the DataComp dataset using our multi-modal dataset reinforcement strategy. In particular, we create DataCompDR-1B and DataCompDR-12M by reinforcing the DataComp-1B (BestPool filtering) and a uniform subset of 12.8M samples, DataCompDR-12M. We generate 5 synthetic captions per image using the `coca_ViT-L-14` model in OpenCLIP, and strong random image augmentations (10 for DataCompDR-1B and 30 for DataCompDR-12M). We compute embeddings of an ensemble of two strong teachers (`ViT-L-14` with pretrained weights `datacomp_xl_s13b_b90k` and openai in OpenCLIP) on augmented images as well as real and synthetic captions. Embeddings are 1536-D concatenations of 2x768-D vectors. One seen sample for DataCompDR is a triplet of one randomly augmented image, one ground-truth caption, and one randomly picked synthetic caption.

提供机构：

apple

原始信息汇总

数据集卡片 for DataComp-12M

数据集概述

DataComp-12M 是 DataComp-1B-BestPool 的一个 12M 子集。在 DataComp-12M 上训练的图像-文本模型明显优于在 CC-12M/YFCC-15M 以及 DataComp-Small/Medium 上训练的模型。有关此数据集和改进的 DataCompDR-12M 的详细信息，请参阅我们的 MobileCLIP 论文。

数据集详情

数据集描述

DataCompDR 是一个图像-文本数据集，是 DataComp 数据集的增强版本。我们使用多模态数据集增强策略来强化 DataComp 数据集。具体来说，我们通过强化 DataComp-1B（BestPool 过滤）和一个均匀的 12.8M 样本子集，创建了 DataCompDR-1B 和 DataCompDR-12M。我们有一个一次性的生成过程，其成本在多个架构和广泛的消融实验中分摊。我们使用 OpenCLIP 中的 coca_ViT-L-14 模型为每张图像生成 5 个合成标题，并使用强随机图像增强（DataCompDR-1B 为 10 个，DataCompDR-12M 为 30 个）。我们计算增强图像以及真实和合成标题的嵌入，使用两个强教师模型（ViT-L-14 带有预训练权重 datacomp_xl_s13b_b90k 和 openai 在 OpenCLIP 中）的集成。嵌入是 1536-D 的串联，由 2x768-D 向量组成。DataCompDR 的一个已见样本是一个三元组，包括一个随机增强的图像、一个真实标题和一个随机选择的合成标题。

由以下机构策划： 原始数据由 DataComp 提供，元数据由 Apple 提供。
许可证： 我们根据我们的许可证分发我们的元数据。原始的图像 URL-文本样本和元数据由 DataComp 在 Creative Common CC-BY-4.0 许可证下发布。个别图像受其自身版权保护。
存储库： ml-mobileclip GitHub
论文： MobileCLIP 论文
演示： 即将推出

用途

使用 DataCompDR 进行训练显示了与标准 CLIP 训练相比显著的学习效率提升。例如，使用单个节点的 8×A100 GPU，我们在大约一天内从头开始在 DataCompDR-12M 上训练基于 ViT-B/16 的 CLIP 时，在 ImageNet-val 上实现了 61.7% 的零样本分类。使用 DataCompDR-1B 在几个指标上（图 2）设定了新的最先进性能，同时仍然使用与先前工作相比一小部分的训练计算预算。使用 DataCompDR，我们展示了与 DataComp 相比 10x-1000x 的学习效率。

数据集结构

uids.txt: 包含 12779520 (65536*195) 个 UID 的列表，每行一个 UID。
uids.npy: 包含 12779520 (65536*195) 个 UID 的 NumPy 数组，类型为 numpy.dtype("u8,u8")。

引用

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training. (CVPR 2024) Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel.

bibtex @InProceedings{mobileclip2024, author = {Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel}, title = {MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

在视觉-语言预训练领域，数据质量对模型性能具有决定性影响。DataComp-12M数据集源自DataComp-1B-BestPool的精选子集，其构建过程采用了创新的多模态数据增强策略。具体而言，研究团队利用OpenCLIP中的coca_ViT-L-14模型为每张图像生成五条合成描述，并应用了强随机图像增强技术。随后，通过集成两个强教师模型的嵌入表示，将增强后的图像、真实描述与随机选取的合成描述组合成三元组样本，从而构建出这一经过强化的高质量图文对数据集。

特点

该数据集的核心特征在于其通过数据增强与合成技术显著提升了样本的信息密度与多样性。每个样本包含一个随机增强的图像、一条真实标注描述以及一条合成描述，这种三元组结构为模型提供了更丰富的跨模态对齐信号。与原始CC-12M或YFCC-15M等基准数据集相比，DataComp-12M在训练效率与模型性能上展现出显著优势，能够在有限计算资源下实现更优的零样本分类能力。其嵌入表示采用1536维向量，融合了双教师模型的知识，为下游任务提供了强有力的特征基础。

使用方法

该数据集主要用于高效训练视觉-语言模型，尤其适用于资源受限的场景。研究人员可直接加载数据集提供的UID列表，通过对应标识符从原始数据源获取图像与文本内容。在实际训练中，模型利用三元组样本学习图像与文本之间的语义关联，其增强策略能有效提升模型的泛化能力与鲁棒性。实验表明，基于DataComp-12M训练的模型在单节点8×A100 GPU配置下，仅需约一天即可达到优异的零样本分类性能，为快速迭代与模型部署提供了实用解决方案。

背景与挑战

背景概述

在视觉-语言多模态学习领域，大规模图像-文本配对数据集的构建是推动模型性能突破的关键基础。DataComp-12M数据集由苹果公司于2023年在其MobileCLIP研究项目中推出，作为DataComp-1B-BestPool的一个精选子集，旨在通过高效的数据强化策略提升跨模态表示学习的效率。该数据集的核心研究聚焦于解决传统CLIP模型训练中数据利用效率低下的问题，通过引入合成标注与增强技术，显著压缩了模型达到高性能所需的计算资源与时间，对轻量化多模态模型的发展产生了深远影响。

当前挑战

DataComp-12M所应对的领域挑战在于突破图像-文本对齐任务中数据质量与规模之间的平衡难题，传统数据集如CC-12M或YFCC-15M在有限样本下难以支撑模型获得鲁棒的跨模态理解能力。在构建过程中，研究团队面临多重技术挑战：一是需设计高效的强化策略，通过合成标注与随机增强来扩展数据多样性，同时避免引入语义噪声；二是必须确保增强后的数据与原始数据在分布上保持一致，以维持模型训练的稳定性；三是需在有限计算预算下实现大规模数据的高效处理与索引，以支持快速实验迭代。

常用场景

经典使用场景

在视觉-语言多模态学习领域，DataComp-12M数据集作为高质量图像-文本对资源，常被用于训练和评估对比性语言-图像预训练模型。该数据集通过精心筛选和增强，为研究者提供了规模适中但性能卓越的训练样本，特别适用于探索模型在有限计算资源下的学习效率。其经典使用场景包括从头开始训练CLIP架构的变体，验证模型在零样本图像分类、跨模态检索等任务上的泛化能力，为多模态表示学习提供了可靠的基准测试平台。

衍生相关工作

围绕DataComp-12M数据集，已衍生出一系列具有影响力的研究工作。其直接催生的MobileCLIP模型，展示了在移动端部署快速图像-文本模型的可行性。该数据集的多模态强化策略启发了后续关于数据清洗、合成数据增强及高效训练流程的探索。相关方法被拓展至更大规模的DataComp-1B版本，并促进了社区对训练计算效率的重新审视。这些工作共同推动了轻量级多模态架构设计、低资源适应性训练以及模型压缩技术在多模态领域的发展。

数据集最近研究