apple/DataComp-12M
收藏数据集卡片 for DataComp-12M
数据集概述
DataComp-12M 是 DataComp-1B-BestPool 的一个 12M 子集。在 DataComp-12M 上训练的图像-文本模型明显优于在 CC-12M/YFCC-15M 以及 DataComp-Small/Medium 上训练的模型。有关此数据集和改进的 DataCompDR-12M 的详细信息,请参阅我们的 MobileCLIP 论文。
数据集详情
数据集描述
DataCompDR 是一个图像-文本数据集,是 DataComp 数据集的增强版本。我们使用多模态数据集增强策略来强化 DataComp 数据集。具体来说,我们通过强化 DataComp-1B(BestPool 过滤)和一个均匀的 12.8M 样本子集,创建了 DataCompDR-1B 和 DataCompDR-12M。我们有一个一次性的生成过程,其成本在多个架构和广泛的消融实验中分摊。我们使用 OpenCLIP 中的 coca_ViT-L-14 模型为每张图像生成 5 个合成标题,并使用强随机图像增强(DataCompDR-1B 为 10 个,DataCompDR-12M 为 30 个)。我们计算增强图像以及真实和合成标题的嵌入,使用两个强教师模型(ViT-L-14 带有预训练权重 datacomp_xl_s13b_b90k 和 openai 在 OpenCLIP 中)的集成。嵌入是 1536-D 的串联,由 2x768-D 向量组成。DataCompDR 的一个已见样本是一个三元组,包括一个随机增强的图像、一个真实标题和一个随机选择的合成标题。
- 由以下机构策划: 原始数据由 DataComp 提供,元数据由 Apple 提供。
- 许可证: 我们根据我们的 许可证 分发我们的元数据。原始的图像 URL-文本样本和元数据由 DataComp 在 Creative Common CC-BY-4.0 许可证下发布。个别图像受其自身版权保护。
- 存储库: ml-mobileclip GitHub
- 论文: MobileCLIP 论文
- 演示: 即将推出
用途
使用 DataCompDR 进行训练显示了与标准 CLIP 训练相比显著的学习效率提升。例如,使用单个节点的 8×A100 GPU,我们在大约一天内从头开始在 DataCompDR-12M 上训练基于 ViT-B/16 的 CLIP 时,在 ImageNet-val 上实现了 61.7% 的零样本分类。使用 DataCompDR-1B 在几个指标上(图 2)设定了新的最先进性能,同时仍然使用与先前工作相比一小部分的训练计算预算。使用 DataCompDR,我们展示了与 DataComp 相比 10x-1000x 的学习效率。
数据集结构
- uids.txt: 包含 12779520 (65536*195) 个 UID 的列表,每行一个 UID。
- uids.npy: 包含 12779520 (65536*195) 个 UID 的 NumPy 数组,类型为
numpy.dtype("u8,u8")。
引用
MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training. (CVPR 2024) Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel.
bibtex @InProceedings{mobileclip2024, author = {Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel}, title = {MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2024}, }




