apple/DataCompDR-12M-bf16

Name: apple/DataCompDR-12M-bf16
Creator: apple
Published: 2025-06-04 20:06:53
License: 暂无描述

Hugging Face2025-06-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/apple/DataCompDR-12M-bf16

下载链接

链接失效反馈

官方服务：

资源简介：

DataCompDR-12M-BFloat16数据集是DataComp数据集的增强版本，包含合成标题、嵌入和元数据。该数据集通过多模态数据集增强策略生成，使用OpenCLIP模型生成每张图像的5个合成标题，并计算增强图像和真实/合成标题的嵌入。数据集结构包括图像URL、合成标题、增强参数、图像和文本嵌入等信息。数据集主要用于训练CLIP模型，展示了显著的学习效率提升。

提供机构：

apple

原始信息汇总

数据集概述

数据集名称： DataCompDR-12M-BFloat16

数据集描述： DataCompDR是一个增强版的图像-文本数据集，通过多模态数据增强策略对原始DataComp数据集进行强化。该数据集包含12M样本，通过使用预训练的图像-文本模型生成合成标题、嵌入和元数据。每个图像生成5个合成标题，并计算增强图像、真实和合成标题的嵌入。

数据集特征：

url.txt: 图像URL，数据类型为字符串。
syn.json: 包含合成文本列表，数据类型为字符串列表。
paug.json: 包含增强参数，数据类型为字符串。
pth.gz: 包含图像和文本嵌入，数据类型为Bfloat16的列表。
json: 包含图像的SHA256哈希值，数据类型为字符串。

任务类别：

文本到图像
图像到文本

语言： 英语

许可证： 自定义Apple许可证

数据集结构：

每个样本包括一个随机增强的图像、一个真实标题和一个随机选择的合成标题。

使用情况：

使用DataCompDR进行训练相比标准CLIP训练显示出显著的学习效率提升。例如，使用8×A100 GPU的单节点在约一天内可达到61.7%的零样本分类准确率。

引用信息： bibtex @InProceedings{mobileclip2024, author = {Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel}, title = {MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉与自然语言处理交叉领域，DataCompDR-12M-bf16数据集的构建体现了多模态数据增强的前沿理念。该数据集以DataComp-1B的1200万样本子集为基础，通过预训练的CoCa ViT-L-14模型为每幅图像生成五条合成描述，并采用强随机图像增强技术，为每个样本创建多达30种增强变体。随后，利用由ViT-L-14架构构成的教师模型集成，对增强后的图像以及真实与合成描述进行编码，生成高维嵌入向量。这一过程将原始图像-文本对转化为包含增强参数、合成描述及多模态嵌入的丰富元数据，旨在通过一次性的计算密集型生成，为后续多种模型架构的高效训练提供支持。

特点

该数据集的核心特征在于其深度融合的多模态元数据结构。每个数据样本不仅包含原始图像的统一资源定位符和真实描述，还整合了由先进视觉语言模型生成的多样化合成描述，以及经过严格增强处理的图像所对应的参数化表示。尤为突出的是，数据集提供了经过教师模型集成编码的高维嵌入向量，这些向量将图像与文本特征统一映射至同一语义空间。数据组织采用分片存储，并通过唯一标识符与原始DataComp-12M数据集保持严格对应，确保了数据溯源的一致性与完整性。这种结构设计使得数据集能够直接服务于对比学习等训练范式，显著降低了训练过程中的计算开销。

使用方法

该数据集主要应用于大规模视觉语言模型的预训练与微调。研究人员可通过加载分片数据，直接获取图像与文本的预计算嵌入，或利用提供的增强参数与合成描述重构训练样本。在具体训练流程中，每个样本通常被构造成一个三元组，包含一幅随机增强的图像、一条真实描述以及一条随机选取的合成描述，以此构建更加鲁棒的对比学习任务。据相关研究报道，基于此数据集训练模型，能在单节点八张A100显卡的配置下，于约一天时间内使ViT-B/16架构的CLIP模型在ImageNet验证集上达到61.7%的零样本分类准确率，展现出卓越的训练效率。使用前需仔细查阅其GitHub代码库以了解详细的数据加载与处理接口。

背景与挑战

背景概述

在计算机视觉与自然语言处理交叉领域，多模态学习已成为推动人工智能发展的核心驱动力。苹果公司于2024年推出的DataCompDR-12M-bf16数据集，作为DataComp数据集的增强版本，旨在通过多模态强化策略提升图像-文本对齐模型的训练效率。该数据集由苹果研究团队基于DataComp-1B的1200万子集构建，利用预训练的CoCa和OpenCLIP模型生成合成标题与嵌入表示，其核心研究聚焦于通过合成数据增强与教师模型集成，显著降低多模态模型训练的计算成本，为轻量化模型如MobileCLIP的研发提供了关键数据支撑，推动了高效视觉-语言表征学习的前沿进展。

当前挑战

DataCompDR-12M-bf16数据集致力于应对图像-文本多模态对齐任务中的核心挑战，即如何在有限计算资源下实现高效且鲁棒的表征学习。具体而言，其构建过程面临双重困难：一方面，合成标题的生成需平衡语义准确性与多样性，避免引入噪声或偏见；另一方面，大规模嵌入计算涉及复杂的模型集成与数据增强策略，对算法稳定性与计算效率提出极高要求。此外，数据集的衍生性质使其高度依赖原始DataComp的数据质量，如何确保增强后数据的泛化能力与公平性，仍是亟待深入探索的课题。

常用场景

经典使用场景

在视觉-语言多模态学习领域，DataCompDR-12M-bf16数据集作为强化训练资源，其经典使用场景在于高效训练对比性语言-图像预训练模型。该数据集通过集成合成标题、增强图像及预计算嵌入，为模型提供了丰富的跨模态对齐信号。研究者通常利用其结构化的图像-文本对及嵌入表示，在有限计算资源下实现CLIP架构的快速收敛与性能提升，尤其适用于探索数据增强与合成数据对模型泛化能力的影响。

衍生相关工作

围绕该数据集衍生的经典工作主要包括MobileCLIP系列模型，其通过多模态强化训练实现了速度与精度的平衡。后续研究进一步探索了合成标题的生成策略对模型语义理解的影响，以及嵌入融合技术在多任务学习中的扩展。这些工作不仅验证了数据集在提升训练效率方面的有效性，还催生了针对数据增强优化、模型压缩等方向的创新方法，形成了轻量化多模态模型研究的重要分支。

数据集最近研究