YFCC15M
收藏arXiv2022-03-11 更新2024-06-21 收录
下载链接:
https://github.com/Sense-GVT/DeCLIP
下载链接
链接失效反馈官方服务:
资源简介:
YFCC15M是由北京航空航天大学和SenseTime Research合作创建的大型图像-文本数据集,包含15388848对图像和文本描述。该数据集通过精细的过滤策略,提高了数据质量,主要用于评估和分析对比语言-图像预训练(CLIP)模型的性能。YFCC15M支持多种视觉任务,如零样本识别和图像分类,旨在通过高质量的数据提升模型的泛化能力和训练效率。
YFCC15M is a large-scale image-text dataset co-created by Beihang University and SenseTime Research, containing 15,388,848 pairs of images and their corresponding textual descriptions. This dataset adopts a rigorous filtering strategy to improve data quality, and is primarily used for evaluating and analyzing the performance of Contrastive Language-Image Pre-training (CLIP) models. YFCC15M supports multiple visual tasks such as zero-shot recognition and image classification, aiming to enhance the generalization ability and training efficiency of models via high-quality data.
提供机构:
北京航空航天大学
创建时间:
2022-03-11
搜集汇总
数据集介绍

构建方式
YFCC15M数据集是从YFCC100M数据集中筛选出的15M图像-文本对,主要用于对比语言-图像预训练(CLIP)的研究。该数据集的构建方式主要是通过从YFCC100M中选取图像-文本对,并对这些对进行过滤和筛选,以确保数据质量。筛选策略包括图像的清晰度、文本的长度和内容质量等。最终,YFCC15M数据集包含了15M高质量的图像-文本对,这些对能够有效地用于CLIP模型的训练和评估。
特点
YFCC15M数据集具有以下特点:1.数据规模适中,既保证了训练效率,又保证了数据质量;2.数据质量高,经过严格的筛选和过滤,保证了图像的清晰度和文本的内容质量;3.数据多样性丰富,包含了各种类型的图像和文本,能够有效地用于CLIP模型的训练和评估。
使用方法
YFCC15M数据集可以用于对比语言-图像预训练(CLIP)的研究。使用该数据集时,首先需要将数据集下载到本地,并进行解压。然后,可以使用PyTorch等深度学习框架对数据集进行处理和加载,以便进行模型的训练和评估。在训练过程中,可以使用各种CLIP模型,如CLIP、SLIP、DeCLIP和FILIP等,并对这些模型的性能进行比较和分析。
背景与挑战
背景概述
YFCC15M数据集是计算机视觉领域的一个重要资源,它包含了超过一亿五千万张图片及其对应的描述。该数据集最初由Bart Thomee等人于2016年创建,旨在为多媒体研究提供一个新的数据集。YFCC15M数据集的核心研究问题是图像和文本之间的关联性,以及如何利用这种关联性来训练视觉模型。该数据集对相关领域的影响力在于,它为图像分类、图像检索、图像描述等任务提供了大量的训练数据,推动了视觉模型的发展。
当前挑战
YFCC15M数据集的相关挑战主要包括:1)数据质量对模型性能的影响。虽然YFCC15M数据集包含了大量的图片和文本,但其中的数据质量并不均匀,这可能会对模型的训练和性能产生影响。2)构建过程中所遇到的挑战。由于YFCC15M数据集的规模庞大,因此在其构建过程中,研究人员需要考虑如何有效地清洗和筛选数据,以获得高质量的数据集。
常用场景
经典使用场景
YFCC15M数据集是计算机视觉领域的一个重要数据集,它包含超过1500万张图片及其对应的文本描述。该数据集被广泛应用于对比语言-图像预训练(CLIP)的研究中,旨在通过语言监督学习视觉模型。YFCC15M数据集的经典使用场景是进行零样本识别,即在没有看到任何标签的情况下预测图像的类别。此外,该数据集也被用于各种下游任务,如视频检索、动作识别等。
衍生相关工作
YFCC15M数据集衍生了许多相关的经典工作,如SLIP、DeCLIP和FILIP等。这些工作通过引入不同的监督信号,如自监督、多视图监督和最近邻监督,进一步提高了CLIP的性能。此外,CLIP-benchmark作为第一个CLIP基准,对CLIP及其变体进行了评估和分析,为未来的CLIP研究提供了重要的参考。这些经典工作为计算机视觉领域的发展做出了重要贡献。
数据集最近研究
最新研究方向
YFCC15M数据集在对比语言图像预训练(CLIP)领域的最新研究方向,主要集中在数据、监督和模型架构三个关键因素的分析与优化。研究发现,数据质量对CLIP性能有显著影响,其中YFCC15M-V2版本在零样本性能上优于V1版本。此外,不同的监督方式对卷积网络(ConvNets)和视觉Transformer(ViT)的影响不同,适当的监督可以有效提升CLIP的性能。在模型架构方面,减少文本编码器的层数可以降低训练成本,但不会对最终性能产生太大影响。综合以上发现,该研究提出了DeFILIP这一CLIP的强化版本,通过整合多种监督方式,实现了性能的提升。
相关研究论文
- 1Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark of Data, Model, and Supervision北京航空航天大学 · 2022年
以上内容由遇见数据集搜集并总结生成



