DataComp

github2024-03-22 更新2024-05-31 收录

下载链接：

https://github.com/mlfoundations/dataset2metadata

下载链接

链接失效反馈

官方服务：

资源简介：

处理下载的数据集，特别是由img2dataset生成的webdataset，并实现DataComp项目的元数据处理。

Process the downloaded dataset, particularly the webdataset generated by img2dataset, and implement metadata processing for the DataComp project.

创建时间：

2023-03-10

原始信息汇总

数据集处理概述

数据集来源与处理

数据集由img2dataset生成，采用webdataset格式。
本项目实现DataComp项目的元数据处理。

数据集处理配置

`basic.yml`配置

模型计算：使用OpenAI CLIP ViT-B/32计算图像和文本特征及CLIP分数。
处理参数：
- 模型指令：oai-clip-vit-b32
- 后处理列：oai-clip-vit-b32-score
- 后处理特征：oai-clip-vit-b32-image, oai-clip-vit-b32-text
- 额外字段：uid, url, caption, original_width, original_height, sha256
- 工作线程数：2
- 批处理大小：512
- 设备ID：0
- 输入tar文件路径：path/to/my/tars/000057{17..19}.tar
- 输出元数据目录：path/to/my/ouput/metadata
- 重新处理：True

`datacomp.yml`配置

模型计算：
- OpenAI CLIP ViT-B/32和CLIP ViT-L/14计算图像和文本特征及CLIP分数。
- detoxify计算文本毒性分数。
- NSFW图像过滤（基于CLIP ViT-L/14图像特征的自定义训练分类器）。
- ISC Descriptor计算特征及与DataComp评估集的近似重复分数。
处理参数：
- 模型指令：oai-clip-vit-b32, oai-clip-vit-l14, nsfw-detoxify, nsfw-image-oai-clip-vit-l-14, faces-scrfd10g, dedup-isc-ft-v107
- 后处理列：oai-clip-vit-b32-score, oai-clip-vit-l14-score, nsfw-detoxify-score, nsfw-image-score, face-boxes, dedup-isc-ft-v107-score
- 后处理特征：oai-clip-vit-b32-image, oai-clip-vit-b32-text, oai-clip-vit-l14-image, oai-clip-vit-l14-text, dedup-isc-ft-v107-image
- 额外字段：uid, url, caption, original_width, original_height, sha256
- 工作线程数：2
- 批处理大小：512
- 设备ID：0
- 输入tar文件路径：path/to/my/tars/000057{17..19}.tar
- 输出元数据目录：path/to/my/ouput/metadata
- 重新处理：True
- 注意：此工作负载需要约40GB的GPU VRAM。

运行指令

使用basic.yml运行： sh dataset2metadata --yml basic.yml
使用datacomp.yml运行： sh dataset2metadata --yml datacomp.yml

搜集汇总

数据集介绍

构建方式

DataComp数据集的构建依托于先进的元数据处理技术，通过`dataset2metadata`工具对由`img2dataset`生成的WebDataset进行处理。该工具集成了多种模型，包括OpenAI的CLIP ViT-B/32和ViT-L/14，用于提取图像和文本特征，并计算CLIP分数。此外，还引入了detoxify文本毒性评分、NSFW图像过滤以及ISC描述符特征等，确保数据集的多样性和质量。数据处理过程中，支持多线程和批量处理，显著提升了效率。

特点

DataComp数据集以其多模态特性著称，涵盖了图像、文本及其关联的元数据。数据集不仅包含了丰富的视觉和语言信息，还通过CLIP模型实现了图像与文本的深度关联。此外，数据集还引入了毒性评分和NSFW过滤机制，确保了内容的合规性。ISC描述符特征的加入，进一步增强了数据集的实用性，使其在图像检索和去重任务中表现出色。DataComp数据集的高质量和多样性，为多模态学习研究提供了坚实的基础。

使用方法

使用DataComp数据集时，用户可通过`dataset2metadata`工具进行数据处理。工具支持通过YAML配置文件灵活指定模型和处理流程，用户可根据需求选择不同的模型组合，如CLIP ViT-B/32、ViT-L/14等。处理过程中，工具支持多线程和批量处理，显著提升了效率。用户只需指定输入路径和输出目录，即可自动完成数据处理和元数据生成。此外，工具还支持自定义模型和预处理流程，满足不同研究场景的需求。

背景与挑战

背景概述

DataComp数据集由Samir Yitzhak Gadre等研究人员于2023年创建，旨在探索下一代多模态数据集的构建与应用。该数据集的核心研究问题聚焦于如何通过大规模数据集的优化与处理，提升多模态模型在图像与文本联合理解任务中的性能。DataComp项目由多个研究机构共同参与，包括OpenAI、华盛顿大学等，其影响力不仅体现在多模态学习领域，还为数据集的构建与评估提供了新的方法论。通过引入CLIP模型、文本毒性检测、NSFW图像过滤等技术，DataComp为多模态数据集的标准化与高效处理树立了标杆。

当前挑战

DataComp数据集在解决多模态学习问题的过程中面临诸多挑战。首先，多模态数据的对齐与融合需要克服图像与文本之间的语义鸿沟，这对模型的泛化能力提出了更高要求。其次，数据集的构建过程中，如何高效处理大规模数据并确保其质量成为关键问题，例如NSFW图像的过滤与文本毒性检测需要高精度的分类器支持。此外，数据集的去重与特征提取也对计算资源提出了巨大需求，尤其是在GPU显存有限的情况下，如何优化数据处理流程成为技术难点。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练与评估提出了更高的技术要求。

常用场景

经典使用场景

DataComp数据集在计算机视觉和自然语言处理领域中被广泛应用于多模态学习任务。通过结合图像和文本数据，该数据集为研究者提供了一个丰富的资源，用于训练和评估多模态模型。特别是在图像-文本匹配、跨模态检索和生成任务中，DataComp数据集展现了其独特的价值。

衍生相关工作

基于DataComp数据集，研究者们开发了一系列经典的多模态学习模型和算法。例如，利用该数据集训练的CLIP模型在图像-文本匹配任务中取得了显著成果。此外，数据集还推动了多模态数据预处理和过滤技术的发展，为后续研究提供了宝贵的经验和工具。

数据集最近研究