DataComp-12M

Hugging Face2024-06-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/mlfoundations/DataComp-12M

下载链接

链接失效反馈

官方服务：

资源简介：

DataComp-12M数据集是DataComp-1B-BestPool的一个包含1200万样本的子集，主要用于文本到图像和图像到文本的任务。该数据集包含图像的url、文本样本及其元数据，适用于训练图像-文本模型。数据集在MobileCLIP论文中被引入，并与DataCompDR-12M数据集共享UIDs。数据集遵循CC-BY-4.0许可，图像本身则遵循各自的版权。

创建时间：

2024-06-27

原始信息汇总

数据集卡片 for DataComp-12M

概述

该数据集包含 DataComp-1B-BestPool 的 12M 子集。我们以标准的 Creative Common CC-BY-4.0 许可证分发图像 URL-文本样本和元数据。个别图像受其自身版权保护。

在 DataComp-12M 上训练的图像-文本模型明显优于在 CC-12M/YFCC-15M 以及 DataComp-Small/Medium 上训练的模型。

DataComp-12M 在 MobileCLIP 论文中引入，并与增强数据集 DataCompDR-12M 一起发布。mlfoundations/DataComp-12M 和 apple/DataCompDR-12M 之间的 UID 分片匹配。

数据集信息

特征

url.txt: 数据类型为字符串。
txt: 数据类型为字符串。
json: 结构化数据，包含以下字段：
- uid: 数据类型为字符串。
- sha256: 数据类型为字符串。
- original_height: 数据类型为 int32。
- original_width: 数据类型为 int32。

许可证

该数据集的许可证为 CC-BY-4.0。

引用

DataComp

bibtex @article{gadre2024datacomp, title={Datacomp: In search of the next generation of multimodal datasets}, author={Gadre, Samir Yitzhak and Ilharco, Gabriel and Fang, Alex and Hayase, Jonathan and Smyrnis, Georgios and Nguyen, Thao and Marten, Ryan and Wortsman, Mitchell and Ghosh, Dhruba and Zhang, Jieyu and others}, journal={Advances in Neural Information Processing Systems}, volume={36}, year={2024} }

MobileCLIP

bibtex @InProceedings{mobileclip2024, author = {Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel}, title = {MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

DataComp-12M数据集是从DataComp-1B-BestPool中精选出的1200万条图像-文本对子集，旨在为多模态学习提供高质量的训练数据。该数据集的构建过程严格遵循数据筛选标准，确保每对图像和文本的相关性和多样性。数据集中的图像URL和文本信息均以标准化格式存储，并附有详细的元数据，包括图像的原始尺寸和唯一标识符（UID）。这些元数据不仅有助于数据的可追溯性，还为后续的模型训练提供了丰富的上下文信息。

特点

DataComp-12M数据集以其高质量和多样性著称，涵盖了广泛的图像和文本内容，适用于多模态任务，如文本到图像生成和图像到文本理解。与CC-12M和YFCC-15M等传统数据集相比，DataComp-12M在模型训练效果上表现出显著优势。此外，该数据集与增强版DataCompDR-12M共享相同的UID结构，便于研究人员在不同版本之间进行对比实验。数据集的所有内容均遵循CC-BY-4.0许可协议，确保了其开放性和可访问性。

使用方法

DataComp-12M数据集主要用于训练和评估多模态模型，特别是在图像-文本对齐任务中表现出色。研究人员可以通过HuggingFace平台直接访问数据集，并利用其提供的图像URL和文本信息进行模型训练。由于数据集包含详细的元数据，用户可以根据需求筛选特定类型的图像或文本。此外，数据集与增强版DataCompDR-12M的兼容性为对比实验提供了便利。使用该数据集时，需遵守HuggingFace的服务条款，并注意图像版权问题。

背景与挑战

背景概述

DataComp-12M数据集是由Samir Yitzhak Gadre等研究人员在2024年提出的，旨在推动多模态数据集的发展。该数据集是DataComp-1B-BestPool的一个子集，包含了1200万条图像-文本对，主要用于文本到图像和图像到文本的任务。DataComp-12M的引入标志着多模态学习领域的一个重要里程碑，其研究成果在NeurIPS 2024和CVPR 2024等顶级会议上发表，显著提升了图像-文本模型的性能。该数据集不仅为研究者提供了一个高质量的训练资源，还为多模态模型的优化和评估提供了新的基准。

当前挑战

DataComp-12M数据集在解决图像-文本多模态任务时面临多重挑战。首先，图像和文本的对齐问题是一个核心难点，尤其是在大规模数据集中，如何确保图像与其描述文本的语义一致性至关重要。其次，数据集的构建过程中，研究人员需要处理大量异构数据，包括图像URL、文本描述以及元数据，这对数据的清洗、去重和标注提出了极高的要求。此外，由于图像版权问题，数据集的合法性和使用范围也受到限制，研究者在使用时需谨慎处理版权风险。这些挑战不仅考验了数据集的构建技术，也对后续模型的训练和评估提出了更高的标准。

常用场景

经典使用场景

DataComp-12M数据集在文本到图像和图像到文本的多模态任务中展现了其卓越的性能。该数据集广泛应用于训练和评估图像-文本模型，尤其是在需要高精度匹配图像与描述性文本的场景中。通过提供丰富的图像-文本对，DataComp-12M为研究者提供了一个强大的工具，以探索和优化多模态学习算法。

实际应用

在实际应用中，DataComp-12M被广泛用于图像检索、自动图像标注和内容生成系统。例如，在电子商务平台中，该数据集可以帮助系统更准确地匹配产品图像与用户搜索的文本描述，从而提升用户体验。此外，DataComp-12M还被用于开发智能助手，使其能够根据用户提供的文本描述生成或检索相关图像。

衍生相关工作

DataComp-12M的引入催生了一系列相关研究，特别是在多模态学习领域。例如，MobileCLIP模型通过在该数据集上进行训练，显著提升了图像-文本匹配的速度和精度。此外，DataCompDR-12M作为DataComp-12M的增强版本，进一步推动了多模态数据集的研究和应用，为后续的学术探索和工业应用提供了宝贵的数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集