DFNDR-12M

Name: DFNDR-12M
Creator: Apple
Published: 2026-04-23 04:36:09
License: 暂无描述

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/apple/DFNDR-12M

下载链接

链接失效反馈

官方服务：

资源简介：

DFNDR-12M是一个多模态数据集，包含合成标题、嵌入和元数据，基于DFN-12M（DFN-2B的一个均匀采样子集，包含1280万样本）构建。该数据集通过强化训练策略生成，使用了两个更强的DFN教师模型和改进的合成标题生成方法。数据集包含图像URL、合成标题列表、增强参数以及图像和文本的嵌入（1536维）。每个样本由一个随机增强的图像、一个真实标题和一个随机选取的合成标题组成。DFNDR-12M在训练效率上显著优于标准CLIP训练，比DataComp-1B 12M高效5倍，比DFN-12M高效3.3倍，比DataCompDR-12M高效1.3倍。数据集由DataComp提供原始数据，Apple生成元数据，分别遵循CC-BY-4.0和Apple的特定许可证。

DFNDR-12M is a multimodal dataset containing synthetic captions, embeddings, and metadata, built upon DFN-12M (a uniformly sampled subset of DFN-2B with 12.8 million samples). The dataset is generated through an enhanced training strategy, utilizing two stronger DFN teacher models and improved synthetic caption generation methods. It includes image URLs, lists of synthetic captions, augmentation parameters, and embeddings (1536-dimensional) for both images and texts. Each sample consists of a randomly augmented image, a real caption, and a randomly selected synthetic caption. DFNDR-12M significantly outperforms standard CLIP training in efficiency, being 5 times more efficient than DataComp-1B 12M, 3.3 times more efficient than DFN-12M, and 1.3 times more efficient than DataCompDR-12M. The datasets raw data is provided by DataComp, with metadata generated by Apple, following the CC-BY-4.0 and Apples specific licenses respectively.

提供机构：

Apple

创建时间：

2026-04-12

原始信息汇总

DFNDR-12M 数据集详情

数据集概述

DFNDR-12M 是一个图像-文本数据集，基于多模态数据集增强策略构建。该数据集通过强化 DFN-12M（从 DFN-2B 中均匀采样的约 1,280 万样本子集）创建，包含合成描述、嵌入向量和元数据。

策划方： 原始数据由 DataComp 提供，元数据由 Apple 生成
许可证： 元数据采用 CC-BY-NC-ND-4.0 许可证，原始数据采用 CC-BY-4.0 许可证
论文： MobileCLIP2 论文（TMLR 2025 Featured）
代码仓库： ml-mobileclip GitHub

数据集用途

使用 DFNDR-12M 进行训练相比标准 CLIP 训练能显著提升学习效率：

比 DataComp-1B 12M 高效达 5 倍
比 DFN-12M 高效达 3.3 倍
比 DataCompDR-12M 高效达 1.3 倍

数据集结构

每个样本包含以下文件：

<uid>.url.txt: 图像URL（字符串）
<uid>.syn.json:
- syn_text_dfn_mscoco38k: 合成描述列表（list[string]）
<uid>.paug.json:
- param_aug: 数据增强参数列表（list[list[Union[int,float]]]）
<uid>.npz
- image_emb: 多图像增强的图像嵌入列表（list[list[float]]）
- text_emb: 真实/合成描述的文本嵌入列表（list[list[float]]）
- syn_text_dfn_mscoco38k_emb: 合成描述的嵌入列表（list[list[float]]）

技术细节

增强策略： 对 DFNDR-12M 应用 30 种强随机图像增强（DFNDR-2B 为 2 种）
教师模型集成： 使用两个更强的 DFN 教师模型（DFN2B-CLIP-ViT-L-14 和 DFN2B-CLIP-ViT-L-14-39B）
合成描述生成： 使用 MobileCLIP2-CoCa-ViT-L-14 模型
嵌入维度： 1536 维，由 2 个 768 维向量拼接而成
样本组成： 每个样本包含一个随机增强图像、一个真实描述和一个随机选取的合成描述
BFloat16 版本： 可通过 apple/DFNDR-12M-bf16 获取

任务类别

文本到图像
图像到文本

语言

英语

引用

MobileCLIP2: Improving Multi-Modal Reinforced Training（TMLR 2025 Featured） Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander T Toshev, Oncel Tuzel, Hadi Pouransari.

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training（CVPR 2024） Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel.

搜集汇总

数据集介绍

构建方式

DFNDR-12M数据集是在DFN-12M基础上，通过多模态强化训练策略构建而成。研究者首先从DFN-2B中均匀采样出12.8M样本组成DFN-12M，随后采用集成两个更强DFN教师模型（DFN2B-CLIP-ViT-L-14与DFN2B-CLIP-ViT-L-14-39B）的方法，并引入由MobileCLIP2-CoCa-ViT-L-14生成的改良合成描述。对每张图像施加30种随机强数据增强，计算教师模型集成在增强图像、真实描述及合成描述上的嵌入向量，最终形成包含随机增强图像、真实描述与随机选取合成描述的三元组样本结构。

特点

该数据集的核心特点在于其高效的多模态强化学习机制。相比标准CLIP训练，在DFNDR-12M上训练可实现高达5倍于DataComp-1B 12M、3.3倍于DFN-12M以及1.3倍于DataCompDR-12M的学习效率提升。数据集提供1536维的嵌入向量（由两个768维向量拼接而成），涵盖图像嵌入、真实文本嵌入与合成描述嵌入，并附带详细的增强参数记录，为多模态模型的鲁棒训练与高效收敛提供了优越的数据基础。

使用方法

使用DFNDR-12M时，用户可通过其GitHub仓库获取完整的元数据使用方法。数据集以文件结构形式组织，每个样本包含URL文本文件、合成描述JSON文件（含syn_text_dfn_mscoco38k列表）、增强参数JSON文件以及NPZ格式的嵌入文件（存储image_emb、text_emb与syn_text_dfn_mscoco38k_emb）。用户可直接加载这些元数据进行CLIP类模型的训练，利用预计算的嵌入向量实现高效的批量处理。数据集还提供BFloat16版本以节省存储空间，适合在大规模多模态学习场景中直接应用。

背景与挑战

背景概述

DFNDR-12M由Apple团队于2025年创建，旨在通过多模态强化训练策略提升图像-文本对比学习（如CLIP）的数据效率。该数据集基于DFN-2B的12.8M子集，通过集成两个更强的DFN教师模型（ViT-L-14）和由MobileCLIP2生成的改进合成描述，对原始数据进行强化扩展。其核心研究问题在于如何以更少的样本实现高效的多模态表征学习，从而推动移动端视觉语言模型的实用化。作为TMLR 2025收录的方法，它显著提升了训练效率，较DataComp-1B的12M子集最高提升5倍，为资源受限场景下的多模态学习树立了新的标杆。

当前挑战

该领域核心挑战在于高质量图文对的稀缺性与构建成本：原始网络爬取的图文数据中，仅有少量样本具备精确对齐的语义，而人工标注费时费力。DFNDR-12M通过多重强化策略应对此问题：一方面，采用双教师模型集成与30种强随机图像增强，从噪声数据中提取更稳健的语义信号；另一方面，构建合成描述弥补原始文本的语义信息不足，并通过嵌入向量存储教师模型的认知。此外，数据存档需对分布偏移和教师偏见保持鲁棒，同时处理大规模嵌入的高存储需求，这在构建效率与模型精度间构成了动态权衡。

常用场景

经典使用场景

DFNDR-12M数据集的核心应用在于多模态表征学习的训练，尤其是用于提升视觉-语言联合模型的效率与性能。在经典的CLIP框架中，该数据集通过多模态强化训练策略，利用教师模型集成、强数据增强以及合成描述生成，为每张图像构建了包含增强图像、真实描述和合成描述的三元组结构，从而有效提升了模型的跨模态对齐能力与鲁棒性。研究者通常使用该数据集作为小型高效训练基准，在有限数据量下实现比肩大规模数据集的学习效果。

解决学术问题

该数据集直击多模态学习领域中的数据效率与训练瓶颈问题。传统CLIP训练依赖海量图像-文本对，计算成本高昂。DFNDR-12M通过提出多模态强化策略，解决了如何在小规模数据上获得强泛化能力的学术难题。其创新在于利用双教师集成和精细化合成文本，显著提升了每对数据的监督信号质量，使得训练效率相比DataComp-1B 12M提升高达5倍。这一突破为资源受限环境下的多模态研究提供了可行路径，推动了高效视觉-语言模型的发展。

衍生相关工作

围绕DFNDR-12M衍生了一系列影响深远的研究工作。最直接的是其母论文MobileCLIP与MobileCLIP2，前者首次提出多模态强化训练概念，后者进一步优化了教师集成与合成描述机制，并在TMLR 2025上被评为Featured文章。此外，该数据集的技术路线也与DataCompDR相呼应，但通过采用更强的DFN教师和更精细的增强策略，实现了超越前人的训练效率。其元数据格式和开源工具链也被后续研究广泛引用，为多模态数据蒸馏、少样本学习等领域提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集