CIRR-C, FashionIQ-C, CIRR-D

Name: CIRR-C, FashionIQ-C, CIRR-D
Creator: 伦敦玛丽女王大学
Published: 2023-12-01 02:14:48
License: 暂无描述

arXiv2023-12-01 更新2024-06-21 收录

下载链接：

https://github.com/SunTongtongtong/Benchmark-Robustness-Text-Image-Compose-Retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

本研究引入了三个大型鲁棒性基准数据集，用于评估文本-图像组合检索的鲁棒性。CIRR-C和FashionIQ-C分别针对开放领域和时尚领域，包含15种视觉腐败和7种文本腐败，用于测试模型对自然腐败的鲁棒性。CIRR-D是一个诊断数据集，通过合成数据扩展原始数据，包含修改后的文本，用于评估模型在数值变化、属性变化、对象移除、背景变化和细粒度评估等方面的文本理解能力。这些数据集的创建旨在解决模型在实际应用中可能遇到的自然腐败和文本理解问题，从而提高模型的鲁棒性和准确性。

This study introduces three large-scale robustness benchmark datasets for evaluating the robustness of text-image cross-modal retrieval. CIRR-C and FashionIQ-C, which target open-domain and fashion domains respectively, encompass 15 visual corruptions and 7 text corruptions to assess model robustness against natural corruptions. CIRR-D is a diagnostic dataset that expands the original dataset with synthetic data and includes modified texts, designed to evaluate models' text understanding capabilities in scenarios such as numerical changes, attribute modifications, object removal, background alterations, and fine-grained assessment. These datasets are developed to address the natural corruption and text understanding challenges that models may face in real-world applications, thereby enhancing the robustness and accuracy of the models.

提供机构：

伦敦玛丽女王大学

创建时间：

2023-11-25

搜集汇总

数据集介绍

构建方式

CIRR-C、FashionIQ-C和CIRR-D数据集的构建基于现有的CIRR和FashionIQ数据集，通过引入15种视觉损坏和7种文本损坏来评估模型对自然损坏的鲁棒性。CIRR-D数据集通过扩展原始数据并添加合成数据，以更好地探测文本理解能力，包括数值变化、属性变化、对象移除、背景变化和细粒度评估。这些数据集的构建旨在系统地分析文本图像组合检索在视觉和文本自然损坏以及进一步的文本理解方面的鲁棒性。

特点

这些数据集的主要特点在于其多样性和复杂性。CIRR-C和FashionIQ-C数据集包含了15种视觉损坏和7种文本损坏，能够全面评估模型在真实世界中的鲁棒性。CIRR-D数据集则通过合成数据扩展了原始数据集，提供了对文本理解能力的深入探测，涵盖了数值、属性、对象移除、背景和细粒度变化等多个方面。这些数据集的设计旨在填补现有研究中对多模态任务鲁棒性分析的空白。

使用方法

使用这些数据集时，研究者可以通过下载原始的CIRR和FashionIQ数据集，并应用提供的代码进行图像和文本的损坏处理。随后，可以在这些损坏数据上进行下游模型的评估。对于CIRR-D数据集，研究者可以直接使用提供的合成数据和扩展的查询，以评估模型在不同文本理解任务上的表现。这些数据集的评估平台已经标准化，便于不同模型的公平比较和集成。

背景与挑战

背景概述

文本-图像组合检索旨在通过组合查询来检索目标图像，该查询以图像加上描述输入图像所需修改的文本形式指定。近年来，由于其能够利用信息丰富的图像和简洁的语言来精确表达目标图像的需求，这一领域引起了广泛关注。然而，这些方法对现实世界中的损坏或进一步的文本理解能力的鲁棒性尚未得到研究。本文首次进行了鲁棒性研究，并建立了三个新的多样化基准，用于系统分析文本-图像组合检索对视觉和文本中的自然损坏的鲁棒性，并进一步探究文本理解能力。

当前挑战

构建CIRR-C、FashionIQ-C和CIRR-D数据集面临的主要挑战包括：1) 对视觉和文本中的自然损坏进行系统分析，确保模型在这些损坏条件下的鲁棒性；2) 扩展原始数据集以包含合成数据，以更好地探测文本理解能力，包括数值变化、属性变化、对象移除、背景变化和细粒度评估；3) 确保合成数据与自然场景相符，避免生成包含明显人工痕迹的图像。此外，数据集的长尾分布问题也可能导致模型对某些类别的偏见，影响评估的公正性。

常用场景

经典使用场景

CIRR-C, FashionIQ-C, 和 CIRR-D 数据集主要用于评估文本-图像组合检索模型的鲁棒性。这些数据集通过引入视觉和文本的自然损坏，以及文本理解能力的测试，来系统分析模型在面对真实世界中的损坏时的表现。经典使用场景包括在开放域和时尚域中测试模型对视觉和文本损坏的鲁棒性，以及通过合成数据扩展原始数据集来评估模型的文本理解能力。

衍生相关工作

基于这些数据集，研究者们已经开展了一系列相关工作，包括对多模态任务鲁棒性的系统分析、视觉问答任务的鲁棒性研究，以及对文本-图像组合检索模型的诊断分析。例如，Li 等人 [22] 对视觉问答任务的鲁棒性进行了系统分析，而 Schiappa 等人 [4] 则在文本-视频检索中引入了自然损坏的视觉和文本基准。这些工作进一步推动了多模态学习领域的发展，特别是在面对真实世界中的损坏和复杂文本理解需求时的模型表现。

数据集最近研究