DFNDR-2B

Name: DFNDR-2B
Creator: Apple
Published: 2026-04-23 04:36:00
License: 暂无描述

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/apple/DFNDR-2B

下载链接

链接失效反馈

官方服务：

资源简介：

DFNDR-2B是一个基于MobileCLIP和MobileCLIP2多模态数据集强化策略构建的图像-文本数据集。该数据集通过强化DFN-2B（DataComp-12B的一个2B过滤子集）创建，包含合成标题、嵌入和元数据。数据集使用两个更强的DFN教师模型（DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-39B）以及由MobileCLIP2-CoCa-ViT-L-14生成的改进合成标题。每个样本包括一个随机增强的图像、一个真实标题和一个随机选取的合成标题的三元组。嵌入是1536维的向量，由两个768维向量连接而成。DFNDR-2B在训练中显示出比标准CLIP训练更高的学习效率，训练效率比DataCompDR-1B高出1.7倍。数据集结构包括图像URL、合成标题列表、增强参数列表以及图像和文本的嵌入列表。数据集由DataComp原始数据和Apple的元数据共同策划，遵循CC-BY-NC-ND-4.0许可。

DFNDR-2B is an image-text dataset built based on the multimodal dataset enhancement strategies introduced in MobileCLIP and MobileCLIP2. This dataset is created by enhancing DFN-2B (a 2B filtered subset of DataComp-12B) and includes synthetic captions, embeddings, and metadata. DFNDR-2B utilizes two stronger DFN teacher models (DFN2B-CLIP-ViT-L-14 and DFN2B-CLIP-ViT-L-14-39B) as well as improved synthetic captions generated by MobileCLIP2-CoCa-ViT-L-14. Each sample in the dataset consists of a triplet of a randomly augmented image, a real caption, and a randomly selected synthetic caption. The embeddings are 1536-dimensional vectors, formed by concatenating two 768-dimensional vectors. DFNDR-2B demonstrates higher learning efficiency during training compared to standard CLIP training, with a training efficiency 1.7 times higher than DataCompDR-1B. The dataset structure includes image URLs, lists of synthetic captions, lists of augmentation parameters, and lists of embeddings for both images and texts. The dataset is curated from DataComps original data and Apples metadata, and it follows the CC-BY-NC-ND-4.0 license.

提供机构：

Apple

创建时间：

2026-04-12

原始信息汇总

数据集 DFNDR-2B 概述

基本信息

数据集名称: DFNDR-2B
语言: 英语
许可证: CC-BY-NC-ND-4.0（元数据）；原始数据由 DataComp 以 CC-BY-4.0 发布；各图像版权归其所有者
任务类别: 文本到图像、图像到文本
数据规模: 1B < n < 10B
数据集大小分类: 1B<n<10B

数据集描述

DFNDR 是一个图像-文本数据集，基于 MobileCLIP 中引入并在 MobileCLIP2 中改进的多模态数据集增强策略构建。

通过对 DFN-2B（DataComp-12B 的一个 2B 过滤子集）进行增强，创建了 DFNDR-2B。
通过对 DFN-12M（从 DFN-2B 中均匀采样的 12.8M 样本子集）进行增强，创建了 DFNDR-12M。
与 DataCompDR 相比，DFNDR 使用两个更强的 DFN 教师模型（DFN2B-CLIP-ViT-L-14 和 DFN2B-CLIP-ViT-L-14-39B）的集成，并使用由 MobileCLIP2-CoCa-ViT-L-14 改进的合成字幕。
对 DFNDR-2B 应用 2 种强随机图像增强（DFNDR-12M 为 30 种）。
计算教师模型集成在增强图像以及真实和合成字幕上的嵌入。
嵌入是 2 个 768-D 向量的 1536-D 拼接。
DFNDR 的一个可见样本是一个三元组：一个随机增强图像、一个真实字幕和一个随机选取的合成字幕。

数据集结构

每个样本包含以下文件：

<uid>.url.txt: 图像 URL（字符串）
<uid>.syn.json:
- syn_text_dfn_mscoco38k: 合成字幕列表（list[string]）
<uid>.paug.json:
- param_aug: 增强参数列表（list[list[Union[int,float]]]）
<uid>.npz:
- image_emb: 多次图像增强的图像嵌入列表（list[list[float]]）
- text_emb: 真实/合成字幕的文本嵌入列表（list[list[float]]）
- syn_text_dfn_mscoco38k_emb: 合成字幕的嵌入列表（list[list[float]]）

数据集的策划与来源

策划方: 原始数据由 DataComp 提供，元数据由 Apple 提供。
仓库: ml-mobileclip GitHub
论文:
- MobileCLIP2 论文: OpenReview
- MobileCLIP 论文: arXiv

数据集用途

使用 DFNDR 进行训练相比标准 CLIP 训练可显著提高学习效率。

在 DFNDR-2B 上训练与 DataCompDR-1B 相比效率提升高达 1.7 倍。
在 DFNDR-2B 上训练的 MobileCLIP2 模型在低延迟下实现了最先进的零样本准确率。

搜集汇总

数据集介绍

构建方式

DFNDR-2B数据集构建于DFN-2B之上，后者是DataComp-12B经过筛选得到的20亿子集。该数据集采用多模态强化训练策略，通过集成两个更强的DFN教师模型（DFN2B-CLIP-ViT-L-14及其39B版本）进行图像-文本对的增强。在数据增强方面，对每张图像应用两次强随机图像变换，并利用MobileCLIP2-CoCa-ViT-L-14模型生成改进的合成标题。最终，每个样本由一幅随机增强后的图像、一条真实标题和一条随机选取的合成标题组成三元组，同时计算教师集成的图像嵌入以及真实与合成标题的文本嵌入，嵌入维度为1536维（2个768维向量拼接）。

特点

DFNDR-2B数据集的核心特点在于其多模态强化机制显著提升了训练效率。相较于DataCompDR-1B，基于DFNDR-2B的训练效率提升了1.7倍，且训练出的MobileCLIP2模型在低延迟条件下达到了领先的零样本准确率。数据集不仅包含原始图像URL与标题，还提供了多份高质量的合成标题、丰富的增强参数以及预计算的多模态嵌入，支持对图像-文本对进行多维度的强化学习探索。其嵌入由双教师模型在增强图像上计算获得，增强了模型的鲁棒性和泛化能力。

使用方法

使用DFNDR-2B数据集时，用户可依据提供的URL下载原始图像，并利用配套的JSON和npz文件获取强化后的训练数据。具体而言，syn.json中包含多个合成标题建议，paug.json记录了每次图像变换的详细参数，而npz文件则存储了图像嵌入、真实标题嵌入以及合成标题嵌入。这些元数据可直接用于训练多模态模型，例如在MobileCLIP框架中，通过加载嵌入和三元组结构实现高效的学习。用户可参考官方GitHub仓库的示例代码，快速集成该数据集至自己的训练流水线中。

背景与挑战

背景概述

DFNDR-2B数据集由Apple团队于2025年提出，旨在应对大规模图文对训练中数据质量与效率的双重挑战。该数据集基于DataComp的DFN-2B筛选子集，通过多模态强化训练策略进行增强，由Fartash Faghri等研究人员主导构建，其核心研究问题在于如何在保持低延迟推理性能的同时，显著提升图文对比学习模型的零样本准确率。作为MobileCLIP系列工作的重要组成部分，DFNDR-2B通过集成两种更强的DFN教师模型与改进的合成字幕生成技术，实现了相较DataCompDR-1B最高1.7倍的训练效率提升，推动了移动端多模态模型的发展。

当前挑战

DFNDR-2B数据集主要面临三方面挑战：首先，在领域问题层面，传统图文对比学习如CLIP受限于低质量网络噪声数据，模型难以从海量弱对齐样本中高效提取语义特征，DFNDR通过多模态强化训练策略与合成字幕生成，解决了数据噪声与对齐质量不足的核心瓶颈；其次，在构建过程中，DFNDR-2B需处理20亿级别的数据规模，包括对每张图像应用两次强随机增强、计算教师集成模型在增强图像与真实及合成字幕上的1536维嵌入，以及协调不同模型之间的输出一致性，对计算资源与数据管线设计提出了极高要求；此外，数据版权与许可的复杂性（原始图像版权归属各异，元数据采用CC-BY-NC-ND许可）也构成了数据发布与复用的挑战。

常用场景

经典使用场景

在视觉与语言多模态表征学习领域，DFNDR-2B数据集凭借其大规模、高质量的多重增强标注，成为训练高效图像-文本模型（如CLIP系列）的核心基石。该数据集通过对DFN-2B进行多模态强化，整合了更强教师集成的嵌入和经由MobileCLIP2-CoCa生成的合成描述，使得模型在零样本分类与检索等经典任务上取得了显著的性能跃升。研究者通常利用其提供的图像与文本嵌入对，以及丰富的增强参数，来训练轻量化但高精度的多模态模型，尤其适合在资源受限场景下探索表征学习效率的极限。

衍生相关工作

DFNDR-2B的开创性工作直接孕育了MobileCLIP系列模型的两代演进。MobileCLIP首次提出了多模态强化训练范式，通过在数据层面融合增强嵌入与合成描述，证明了轻量模型也能达到顶级零样本性能。在此基础上，MobileCLIP2进一步优化了教师集成策略与合成描述生成器，使得DFNDR-2B成为高效训练的基准基准。后续研究如DataCompDR也借鉴了其数据增广与教师知识蒸馏的思路，而更多工作在探索如何将DFNDR-2B的元数据格式推广至其他大规模数据集，推动多模态学习向更加自动化、高效化的方向持续发展。

数据集最近研究