MS-COCO, Flickr30k, MS-COCO-FG, Flickr30k-FG

Name: MS-COCO, Flickr30k, MS-COCO-FG, Flickr30k-FG
Creator: 阿姆斯特丹大学
Published: 2024-07-22 02:08:44
License: 暂无描述

arXiv2024-07-22 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.15239v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文涉及的数据集包括MS-COCO、Flickr30k及其增强版本MS-COCO-FG和Flickr30k-FG，这些数据集主要用于图像-文本检索任务。MS-COCO数据集包含123,287张图片和616,435个描述，而Flickr30k包含31,783张图片和158,915个描述。增强版本的数据集通过添加额外的上下文细节来提高描述的详细程度。这些数据集的创建旨在通过提供更精细的图像描述来改善图像-文本检索模型的性能，特别是在概念粒度方面。数据集的应用领域主要是信息检索和图像-文本匹配，旨在解决现有基准数据集在细节描述和评估方法上的不足。

The datasets covered in this paper include MS-COCO, Flickr30k, and their enhanced variants MS-COCO-FG and Flickr30k-FG, which are primarily utilized for image-text retrieval tasks. MS-COCO consists of 123,287 images paired with 616,435 captions, while Flickr30k contains 31,783 images and 158,915 captions. The enhanced versions of these datasets improve the detail level of image descriptions by adding additional contextual details. These datasets are developed to enhance the performance of image-text retrieval models, especially in terms of conceptual granularity, by providing more fine-grained image descriptions. The main application fields of these datasets are information retrieval and image-text matching, aiming to address the shortcomings of existing benchmark datasets in detail description and evaluation methods.

提供机构：

阿姆斯特丹大学

创建时间：

2024-07-22

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要围绕图像-文本检索（ITR）任务，通过分析现有数据集的局限性，特别是概念粒度的问题，构建了MS-COCO-FG和Flickr30k-FG数据集。这些数据集是在原有MS-COCO和Flickr30k数据集的基础上，通过增加额外的上下文细节来提高图像描述的详细程度和粒度，从而更准确地反映图像中的具体概念和细节。

特点

该数据集的主要特点是提供了更详细和具体的图像描述，能够更好地反映图像中的具体概念和细节。此外，该数据集还引入了各种输入扰动，以测试模型在图像-文本检索任务中的鲁棒性和性能。同时，该数据集还提出了一个跨模态评估指标，以评估图像和文本之间的语义相似性。

使用方法

该数据集可用于评估视觉语言模型在图像-文本检索任务中的性能和鲁棒性。用户可以首先选择一个或多个视觉语言模型，然后在标准数据集和细粒度数据集上进行训练和评估。此外，用户还可以使用数据集中引入的各种输入扰动来测试模型在不同情况下的性能表现。最后，用户可以使用数据集中提出的跨模态评估指标来评估模型在图像和文本之间的语义相似性。

背景与挑战

背景概述

图像-文本检索（ITR）是信息检索领域中的一个重要任务，它依赖于预训练的视觉-语言模型（VLMs），这些模型在ITR任务上不断取得最先进的性能。然而，现有ITR基准的脆弱性成为一个显著的挑战。在标准的数据集中，描述性文字往往提供场景的概括性总结，而忽略了关于具体概念的具体信息。此外，当前的评估设置假设图像和文本之间存在简单的二元匹配，并且专注于模态内的关系，而不是跨模态关系，这可能导致对模型性能的误解。受到这一差距的启发，在这项研究中，我们专注于通过关注概念粒度来检查ITR评估流程的脆弱性。我们首先分析了两个常见的基准，MSCOCO和Flickr30k，并将它们与它们的增强版本，MS-COCO-FG和Flickr30k-FG进行了比较，给出了一个特定的语言特征集，以捕捉概念粒度。我们发现Flickr30k-FG和MSCOCO-FG在所有选定的特征上都 consistently achieve higher scores。为了调查VLMs在粗粒度和细粒度数据集上的性能，我们引入了一个perturbations的分类法。我们将这些perturbations应用于所选数据集。我们在零样本条件下，在有和没有应用的perturbations的情况下，评估了四种最先进的模型——ALIGN、AltCLIP、CLIP和GroupViT——在标准数据集和细粒度数据集上的性能。结果表明，尽管perturbations通常会降低模型性能，但细粒度数据集的表现下降幅度小于它们的标准对应物。此外，所有设置中所有模型和所有数据集的性能下降幅度是一致的，这表明问题在于基准本身。本文通过提供一个改进ITR评估流程的议程来结束。

当前挑战

现有ITR基准的脆弱性主要表现在两个方面：概念粒度和评估指标。概念粒度挑战在于现有基准的描述性文字往往缺乏细节，难以评估模型是否能够学习识别场景中的具体对象或方面。评估指标挑战在于当前ITR评估指标存在一些局限性，例如假设图像和文本之间存在简单的二元匹配，以及专注于模态内的关系，而不是跨模态关系，这可能导致对模型性能的误解。为了解决这些挑战，本文提出了一种新的ITR评估框架，包括引入perturbations来测试模型对输入数据变化的鲁棒性，并引入了一种跨模态评估指标来评估图像和文本之间的语义相似性。

常用场景

经典使用场景

MS-COCO, Flickr30k, MS-COCO-FG, Flickr30k-FG 数据集在视觉语言模型 (VLMs) 的图像文本检索 (ITR) 任务中具有经典应用场景。这些数据集通过提供图像和文本描述的配对，帮助模型学习如何从文本查询中检索相关图像或从图像查询中检索相关文本描述。这些数据集广泛用于训练和评估 VLMs 的性能，特别是在理解图像和文本之间的细粒度语义关系方面。此外，它们还用于研究 VLMs 在处理图像文本配对中的噪声、冗余和上下文变化时的鲁棒性。

衍生相关工作

MS-COCO, Flickr30k, MS-COCO-FG, Flickr30k-FG 数据集衍生了一系列相关的研究工作。这些研究工作主要集中在提高图像文本检索模型的性能和鲁棒性方面。一些研究通过引入新的数据增强技术，如数据集的细粒度版本，来提高模型的泛化能力。其他研究则通过设计新的评估指标和模型架构，以更好地评估模型的性能和鲁棒性。此外，一些研究还探索了图像文本检索在不同领域的应用，如时尚、电子商务和文化遗产等。这些衍生工作为图像文本检索领域的发展提供了新的思路和方法，推动了该领域的研究进展。

数据集最近研究