five

apple/DataCompDR-12M-bf16

收藏
Hugging Face2025-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/apple/DataCompDR-12M-bf16
下载链接
链接失效反馈
官方服务:
资源简介:
DataCompDR-12M-BFloat16数据集是DataComp数据集的增强版本,包含合成标题、嵌入和元数据。该数据集通过多模态数据集增强策略生成,使用OpenCLIP模型生成每张图像的5个合成标题,并计算增强图像和真实/合成标题的嵌入。数据集结构包括图像URL、合成标题、增强参数、图像和文本嵌入等信息。数据集主要用于训练CLIP模型,展示了显著的学习效率提升。

DataCompDR-12M-BFloat16数据集是DataComp数据集的增强版本,包含合成标题、嵌入和元数据。该数据集通过多模态数据集增强策略生成,使用OpenCLIP模型生成每张图像的5个合成标题,并计算增强图像和真实/合成标题的嵌入。数据集结构包括图像URL、合成标题、增强参数、图像和文本嵌入等信息。数据集主要用于训练CLIP模型,展示了显著的学习效率提升。
提供机构:
apple
原始信息汇总

数据集概述

数据集名称: DataCompDR-12M-BFloat16

数据集描述: DataCompDR是一个增强版的图像-文本数据集,通过多模态数据增强策略对原始DataComp数据集进行强化。该数据集包含12M样本,通过使用预训练的图像-文本模型生成合成标题、嵌入和元数据。每个图像生成5个合成标题,并计算增强图像、真实和合成标题的嵌入。

数据集特征:

  • url.txt: 图像URL,数据类型为字符串。
  • syn.json: 包含合成文本列表,数据类型为字符串列表。
  • paug.json: 包含增强参数,数据类型为字符串。
  • pth.gz: 包含图像和文本嵌入,数据类型为Bfloat16的列表。
  • json: 包含图像的SHA256哈希值,数据类型为字符串。

任务类别:

  • 文本到图像
  • 图像到文本

语言: 英语

许可证: 自定义Apple许可证

数据集结构:

  • 每个样本包括一个随机增强的图像、一个真实标题和一个随机选择的合成标题。

使用情况:

  • 使用DataCompDR进行训练相比标准CLIP训练显示出显著的学习效率提升。例如,使用8×A100 GPU的单节点在约一天内可达到61.7%的零样本分类准确率。

引用信息: bibtex @InProceedings{mobileclip2024, author = {Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel}, title = {MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2024}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与自然语言处理交叉领域,DataCompDR-12M-bf16数据集的构建体现了多模态数据增强的前沿理念。该数据集以DataComp-1B的1200万样本子集为基础,通过预训练的CoCa ViT-L-14模型为每幅图像生成五条合成描述,并采用强随机图像增强技术,为每个样本创建多达30种增强变体。随后,利用由ViT-L-14架构构成的教师模型集成,对增强后的图像以及真实与合成描述进行编码,生成高维嵌入向量。这一过程将原始图像-文本对转化为包含增强参数、合成描述及多模态嵌入的丰富元数据,旨在通过一次性的计算密集型生成,为后续多种模型架构的高效训练提供支持。
特点
该数据集的核心特征在于其深度融合的多模态元数据结构。每个数据样本不仅包含原始图像的统一资源定位符和真实描述,还整合了由先进视觉语言模型生成的多样化合成描述,以及经过严格增强处理的图像所对应的参数化表示。尤为突出的是,数据集提供了经过教师模型集成编码的高维嵌入向量,这些向量将图像与文本特征统一映射至同一语义空间。数据组织采用分片存储,并通过唯一标识符与原始DataComp-12M数据集保持严格对应,确保了数据溯源的一致性与完整性。这种结构设计使得数据集能够直接服务于对比学习等训练范式,显著降低了训练过程中的计算开销。
使用方法
该数据集主要应用于大规模视觉语言模型的预训练与微调。研究人员可通过加载分片数据,直接获取图像与文本的预计算嵌入,或利用提供的增强参数与合成描述重构训练样本。在具体训练流程中,每个样本通常被构造成一个三元组,包含一幅随机增强的图像、一条真实描述以及一条随机选取的合成描述,以此构建更加鲁棒的对比学习任务。据相关研究报道,基于此数据集训练模型,能在单节点八张A100显卡的配置下,于约一天时间内使ViT-B/16架构的CLIP模型在ImageNet验证集上达到61.7%的零样本分类准确率,展现出卓越的训练效率。使用前需仔细查阅其GitHub代码库以了解详细的数据加载与处理接口。
背景与挑战
背景概述
在计算机视觉与自然语言处理交叉领域,多模态学习已成为推动人工智能发展的核心驱动力。苹果公司于2024年推出的DataCompDR-12M-bf16数据集,作为DataComp数据集的增强版本,旨在通过多模态强化策略提升图像-文本对齐模型的训练效率。该数据集由苹果研究团队基于DataComp-1B的1200万子集构建,利用预训练的CoCa和OpenCLIP模型生成合成标题与嵌入表示,其核心研究聚焦于通过合成数据增强与教师模型集成,显著降低多模态模型训练的计算成本,为轻量化模型如MobileCLIP的研发提供了关键数据支撑,推动了高效视觉-语言表征学习的前沿进展。
当前挑战
DataCompDR-12M-bf16数据集致力于应对图像-文本多模态对齐任务中的核心挑战,即如何在有限计算资源下实现高效且鲁棒的表征学习。具体而言,其构建过程面临双重困难:一方面,合成标题的生成需平衡语义准确性与多样性,避免引入噪声或偏见;另一方面,大规模嵌入计算涉及复杂的模型集成与数据增强策略,对算法稳定性与计算效率提出极高要求。此外,数据集的衍生性质使其高度依赖原始DataComp的数据质量,如何确保增强后数据的泛化能力与公平性,仍是亟待深入探索的课题。
常用场景
经典使用场景
在视觉-语言多模态学习领域,DataCompDR-12M-bf16数据集作为强化训练资源,其经典使用场景在于高效训练对比性语言-图像预训练模型。该数据集通过集成合成标题、增强图像及预计算嵌入,为模型提供了丰富的跨模态对齐信号。研究者通常利用其结构化的图像-文本对及嵌入表示,在有限计算资源下实现CLIP架构的快速收敛与性能提升,尤其适用于探索数据增强与合成数据对模型泛化能力的影响。
衍生相关工作
围绕该数据集衍生的经典工作主要包括MobileCLIP系列模型,其通过多模态强化训练实现了速度与精度的平衡。后续研究进一步探索了合成标题的生成策略对模型语义理解的影响,以及嵌入融合技术在多任务学习中的扩展。这些工作不仅验证了数据集在提升训练效率方面的有效性,还催生了针对数据增强优化、模型压缩等方向的创新方法,形成了轻量化多模态模型研究的重要分支。
数据集最近研究
最新研究方向
在视觉-语言多模态学习领域,DataCompDR-12M-bf16数据集凭借其强化合成标注与预计算嵌入特性,正推动高效训练范式的前沿探索。该数据集通过集成合成字幕与增强图像嵌入,显著提升了模型的数据利用效率,成为轻量化CLIP架构如MobileCLIP快速训练的关键支撑。当前研究热点集中于利用此类元数据减少训练计算开销,实现零样本识别性能的突破,同时探索多模态强化策略在跨模态检索与生成任务中的泛化能力,为边缘设备部署高效视觉-语言模型提供了新的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作