five

DFNDR-12M-bf16

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/apple/DFNDR-12M-bf16
下载链接
链接失效反馈
官方服务:
资源简介:
DFNDR-12M-BFloat16是一个图像-文本数据集,基于从DFN-2B中均匀采样的12.8M样本子集DFN-12M生成。该数据集包含通过预训练的图像-文本模型生成的合成标题、嵌入和元数据。DFNDR采用了MobileCLIP和MobileCLIP2中引入的多模态增强策略,使用两个更强的DFN教师模型和改进的合成标题生成方法。每个样本包含一个随机增强的图像、一个真实标题和一个随机选择的合成标题。嵌入以BFloat16精度存储在压缩的.pth.gz格式中。该数据集适用于文本到图像和图像到文本任务,训练效率相比标准CLIP训练有显著提升。数据集由DataComp提供原始数据,Apple提供元数据,许可证为CC-BY-NC-ND-4.0。

DFNDR-12M-BFloat16 is an image-text dataset generated based on DFN-12M (a uniformly sampled subset of 12.8M samples from DFN-2B). The dataset contains synthetic captions, embeddings, and metadata generated by a pre-trained image-text model. DFNDR employs the multimodal enhancement strategies introduced in MobileCLIP and MobileCLIP2, using two stronger DFN teacher models and improved synthetic caption generation methods. Each sample includes a randomly augmented image, a real caption, and a randomly selected synthetic caption. The embeddings are stored in compressed .pth.gz format with BFloat16 precision. The dataset is suitable for text-to-image and image-to-text tasks, offering significant improvements in training efficiency compared to standard CLIP training. The dataset is provided by DataComp for raw data and Apple for metadata, under the CC-BY-NC-ND-4.0 license.
提供机构:
Apple
创建时间:
2026-04-17
原始信息汇总

数据集卡片:DFNDR-12M-BFloat16

数据集描述

DFNDR-12M-BFloat16 是一个图像-文本数据集,基于多模态数据集强化策略构建。该数据集包含 DFNDR-12M 的合成字幕、嵌入向量和元数据。元数据使用预训练的图像-文本模型在 DFN-12M(DFN-2B 的一个均匀采样子集,包含 1280 万样本)上生成。这是一个 BFloat16 版本的数据集,嵌入以压缩的 .pth.gz 格式存储,采用 BFloat16 精度。

  • 组织者: 原始数据由 DataComp 提供,元数据由 Apple 生成。
  • 许可证: 元数据采用 Apple 提供的许可协议;原始图像 URL-文本样本由 DataComp 以 Creative Common CC-BY-4.0 许可证发布;个体图像受其各自的版权保护。
  • 仓库: ml-mobileclip GitHub
  • 论文: MobileCLIP2 论文

数据集用途

使用 DFNDR 进行训练相比标准 CLIP 训练表现出显著的学习效率提升。在 DFNDR-12M 上训练相比 DataComp-1B 12M 效率最高提升 5 倍,相比 DFN-12M 提升 3.3 倍,相比 DataCompDR-12M 提升 1.3 倍。

数据集结构

数据集包含以下文件格式和字段(以唯一标识符 <uid> 组织):

  • <uid>.url.txt:图像 URL(字符串)
  • <uid>.syn.json
    • syn_text_dfn_mscoco38k:合成字幕列表(字符串列表)
  • <uid>.paug.json
    • param_aug:数据增强参数列表(整数或浮点数嵌套列表)
  • <uid>.pth.gz
    • image_emb:多次图像增强对应的图像嵌入向量列表(BFloat16 嵌套列表)
  • <uid>.pth.gz(续):
    • text_emb:真实/合成字幕对应的文本嵌入向量列表(BFloat16 嵌套列表)
    • syn_text_dfn_mscoco38k_emb:合成字幕对应的嵌入向量列表(BFloat16 嵌套列表)

数据集详情

  • 语言: 英语
  • 任务类别: 文本到图像、图像到文本
  • 数据集大小: 基于 DFN-12M,包含约 1280 万样本
  • 嵌入维度: 1536 维,由两个 768 维向量拼接而成
  • 样本构成: 每个样本包含一个随机增强图像、一个真实字幕和一个随机选择的合成字幕
  • 增强策略: 对 DFNDR-12M 应用 30 种强随机图像增强
  • 教师模型: 使用两个更强的 DFN 教师模型(DFN2B-CLIP-ViT-L-14DFN2B-CLIP-ViT-L-14-39B)及改进的合成字幕生成模型 MobileCLIP2-CoCa-ViT-L-14
  • 浮点32版本: 可在 apple/DFNDR-12M 获取

引用

MobileCLIP2: Improving Multi-Modal Reinforced Training (TMLR 2025 特色认证)

bibtex @article{faghri2025mobileclip2, title={Mobile{CLIP}2: Improving Multi-Modal Reinforced Training}, author={Fartash Faghri and Pavan Kumar Anasosalu Vasu and Cem Koc and Vaishaal Shankar and Alexander T Toshev and Oncel Tuzel and Hadi Pouransari}, journal={Transactions on Machine Learning Research}, issn={2835-8856}, year={2025}, url={https://openreview.net/forum?id=WeF9zolng8}, note={Featured Certification} }

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training (CVPR 2024)

bibtex @InProceedings{mobileclip2024, author = {Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel}, title = {MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2024}, }

搜集汇总
数据集介绍
main_image_url
构建方式
DFNDR-12M-bf16数据集基于Apple提出的多模态强化训练策略构建,依托于DFN-12M样本子集,后者是从DFN-2B中均匀采样的1280万图文对。在构建过程中,研究团队集成了两个强大的DFN教师模型(DFN2B-CLIP-ViT-L-14及其39B变体)形成集成,并采用MobileCLIP2-CoCa-ViT-L-14生成改进的合成标题。对每张图像应用30种强随机增强,随后计算教师模型在增强图像、真实标题和合成标题上的嵌入向量。嵌入为1536维,由两个768维向量拼接而成,以BFloat16精度存储于压缩的.pth.gz格式中,取代了传统的float32 .npz格式。
特点
该数据集的核心特点在于其高效的强化学习范式与丰富的多模态表征。与标准CLIP训练相比,使用DFNDR-12M可将学习效率提升高达5倍,对比DFN-12M和DataCompDR-12M分别实现3.3倍和1.3倍的加速。数据集每条样本由随机增强图像、真实标题与随机选取的合成标题构成三元组,并封装为URL文件、合成标题JSON、增强参数JSON及嵌入压缩文件四部分,结构清晰、便于检索。嵌入张量采用BFloat16精度,在保持模型性能的同时显著降低存储开销。
使用方法
该数据集专为图像-文本多模态模型的强化训练设计,适合用于CLIP系列模型及其他对比学习框架的训练优化。用户可从HuggingFace直接下载BFloat16版本的压缩嵌入文件,结合提供的图像URL、合成标题及增强参数进行训练。详细的用法指南与代码示例已收录于Apple的ml-mobileclip GitHub仓库中。建议在使用时参考配套论文《MobileCLIP2: Improving Multi-Modal Reinforced Training》以深入理解强化策略,并遵循CC-BY-NC-ND-4.0许可证条款,确保合规使用。
背景与挑战
背景概述
DFNDR-12M-bf16数据集由Apple团队于2025年发布,源自其在多模态强化训练领域的系列研究(MobileCLIP、MobileCLIP2)。该数据集构建于DataComp社区的DFN-2B之上,通过对12.8M样本进行多模态强化策略,生成包含合成描述、增强图像嵌入及文本嵌入的元数据。核心研究问题聚焦于如何提升对比语言-图像预训练(CLIP)模型的训练效率,其影响力体现在相较标准DataComp-1B 12M训练效率提升达5倍。该数据集以BFloat16格式存储嵌入,显著降低存储开销,并为移动端高效模型训练提供了关键数据支撑。
当前挑战
该数据集面临的挑战包括:1) 领域问题层面,传统图像-文本数据集的质量与多样性难以支撑CLIP模型的高效学习,DFNDR通过集成两个强教师模型(DFN2B-CLIP-ViT-L-14及39B版本)及合成描述生成,突破了对海量原始数据依赖的瓶颈;2) 构建过程中,需对DFN-12M的12.8M样本应用30种强随机图像增强,并确保教师模型在增强图像、真实与合成描述上的嵌入一致性,同时将1536维嵌入压缩为BFloat16格式,在精度与效率间取得平衡,这些步骤对计算资源与算法设计提出了严苛要求。
常用场景
经典使用场景
DFNDR-12M-bf16 数据集作为多模态强化训练的典范,其经典用途在于高效训练图像-文本对比学习模型。通过提供经过强随机图像增强、教师模型集成及合成字幕的嵌入表示,该数据集使得研究人员能够在资源受限条件下快速复现并验证如 MobileCLIP 系列等先进视觉语言模型。其紧凑的 BFloat16 格式进一步降低了存储与计算开销,特别适合在移动端或边缘设备上进行大规模对比学习实验。
实际应用
在实际应用中,DFNDR-12M-bf16 被广泛用于训练轻量级且高效的图像-文本检索系统、开放词汇检测及零样本分类模型。其强化后的嵌入表示可直接服务于移动端视觉搜索、电商平台商品匹配以及社交媒体内容理解等场景。通过大幅缩减训练时间与数据需求,该数据集使中小型团队也能部署媲美大规模预训练模型的多模态系统,在智能安防、可穿戴设备及物联网领域具有重要价值。
衍生相关工作
DFNDR-12M-bf16 衍生了一系列开创性工作,包括 MobileCLIP 系列模型及其改进版本 MobileCLIP2,后者通过多模态强化训练在移动级模型上实现了领先性能。该数据集还促进了数据增强策略的深入研究,如 DataCompDR 与 DFN 系列,并催生了多种教师模型集成与合成字幕生成方法的优化。此外,其嵌入格式与压缩存储方式为大规模多模态数据的高效分发与复用提供了新基准,影响了后续如 OpenCLIP 等相关项目的设计决策。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作