YFCC15M

Name: YFCC15M
Creator: 北京航空航天大学
Published: 2022-03-11 16:41:00
License: 暂无描述

arXiv2022-03-11 更新2024-06-21 收录

下载链接：

https://github.com/Sense-GVT/DeCLIP

下载链接

链接失效反馈

官方服务：

资源简介：

YFCC15M是由北京航空航天大学和SenseTime Research合作创建的大型图像-文本数据集，包含15388848对图像和文本描述。该数据集通过精细的过滤策略，提高了数据质量，主要用于评估和分析对比语言-图像预训练（CLIP）模型的性能。YFCC15M支持多种视觉任务，如零样本识别和图像分类，旨在通过高质量的数据提升模型的泛化能力和训练效率。

YFCC15M is a large-scale image-text dataset co-created by Beihang University and SenseTime Research, containing 15,388,848 pairs of images and their corresponding textual descriptions. This dataset adopts a rigorous filtering strategy to improve data quality, and is primarily used for evaluating and analyzing the performance of Contrastive Language-Image Pre-training (CLIP) models. YFCC15M supports multiple visual tasks such as zero-shot recognition and image classification, aiming to enhance the generalization ability and training efficiency of models via high-quality data.

提供机构：

北京航空航天大学

创建时间：

2022-03-11

搜集汇总

数据集介绍

构建方式

YFCC15M数据集是从YFCC100M数据集中筛选出的15M图像-文本对，主要用于对比语言-图像预训练（CLIP）的研究。该数据集的构建方式主要是通过从YFCC100M中选取图像-文本对，并对这些对进行过滤和筛选，以确保数据质量。筛选策略包括图像的清晰度、文本的长度和内容质量等。最终，YFCC15M数据集包含了15M高质量的图像-文本对，这些对能够有效地用于CLIP模型的训练和评估。

特点

YFCC15M数据集具有以下特点：1.数据规模适中，既保证了训练效率，又保证了数据质量；2.数据质量高，经过严格的筛选和过滤，保证了图像的清晰度和文本的内容质量；3.数据多样性丰富，包含了各种类型的图像和文本，能够有效地用于CLIP模型的训练和评估。

使用方法

YFCC15M数据集可以用于对比语言-图像预训练（CLIP）的研究。使用该数据集时，首先需要将数据集下载到本地，并进行解压。然后，可以使用PyTorch等深度学习框架对数据集进行处理和加载，以便进行模型的训练和评估。在训练过程中，可以使用各种CLIP模型，如CLIP、SLIP、DeCLIP和FILIP等，并对这些模型的性能进行比较和分析。

背景与挑战

背景概述

YFCC15M数据集是计算机视觉领域的一个重要资源，它包含了超过一亿五千万张图片及其对应的描述。该数据集最初由Bart Thomee等人于2016年创建，旨在为多媒体研究提供一个新的数据集。YFCC15M数据集的核心研究问题是图像和文本之间的关联性，以及如何利用这种关联性来训练视觉模型。该数据集对相关领域的影响力在于，它为图像分类、图像检索、图像描述等任务提供了大量的训练数据，推动了视觉模型的发展。

当前挑战

YFCC15M数据集的相关挑战主要包括：1)数据质量对模型性能的影响。虽然YFCC15M数据集包含了大量的图片和文本，但其中的数据质量并不均匀，这可能会对模型的训练和性能产生影响。2)构建过程中所遇到的挑战。由于YFCC15M数据集的规模庞大，因此在其构建过程中，研究人员需要考虑如何有效地清洗和筛选数据，以获得高质量的数据集。

常用场景

经典使用场景

YFCC15M数据集是计算机视觉领域的一个重要数据集，它包含超过1500万张图片及其对应的文本描述。该数据集被广泛应用于对比语言-图像预训练(CLIP)的研究中，旨在通过语言监督学习视觉模型。YFCC15M数据集的经典使用场景是进行零样本识别，即在没有看到任何标签的情况下预测图像的类别。此外，该数据集也被用于各种下游任务，如视频检索、动作识别等。

衍生相关工作

YFCC15M数据集衍生了许多相关的经典工作，如SLIP、DeCLIP和FILIP等。这些工作通过引入不同的监督信号，如自监督、多视图监督和最近邻监督，进一步提高了CLIP的性能。此外，CLIP-benchmark作为第一个CLIP基准，对CLIP及其变体进行了评估和分析，为未来的CLIP研究提供了重要的参考。这些经典工作为计算机视觉领域的发展做出了重要贡献。

数据集最近研究