EUFCC-CIR

Name: EUFCC-CIR
Creator: 计算机视觉中心，巴塞罗那自治大学
Published: 2024-10-02 21:26:53
License: 暂无描述

arXiv2024-10-02 更新2024-10-09 收录

下载链接：

https://arxiv.org/pdf/2410.01536v1

下载链接

链接失效反馈

官方服务：

资源简介：

EUFCC-CIR数据集是为画廊、图书馆、档案馆和博物馆（GLAM）收藏中的组合图像检索（CIR）任务设计的，基于EUFCC-340K数据集构建，包含超过180,000个注释的CIR三元组。每个三元组由一个多模态查询（输入图像加上描述所需属性操作的简短文本）和一组相关的目标图像组成。数据集通过自动化过程和过滤启发式方法创建，确保了查询-响应对的丰富性和多样性。该数据集旨在填补数字人文领域中CIR特定资源的空白，通过定性和定量分析展示了其在数字人文研究中的价值，旨在增强用户与文化遗产收藏互动的方式，提供更深入的见解和增强的可访问性。

The EUFCC-CIR dataset is designed for the combined image retrieval (CIR) task within collections of galleries, libraries, archives, and museums (GLAM). Built upon the EUFCC-340K dataset, it contains over 180,000 annotated CIR triples. Each triple comprises a multimodal query (an input image paired with a short text describing the required attribute manipulations) and a set of relevant target images. The dataset is constructed via automated processes and filtering heuristics, ensuring the richness and diversity of query-response pairs. It aims to fill the gap in CIR-specific resources for the Digital Humanities field, demonstrates its value in Digital Humanities research through qualitative and quantitative analyses, and is intended to enhance the ways users interact with cultural heritage collections, providing deeper insights and enhanced accessibility.

提供机构：

计算机视觉中心，巴塞罗那自治大学

创建时间：

2024-10-02

搜集汇总

数据集介绍

构建方式

EUFCC-CIR数据集的构建基于EUFCC-340K数据集，通过自动化流程和过滤策略生成。首先，从EUFCC-340K中提取具有相同‘Object Type’或‘Materials’属性的图像对，然后通过迭代其注释层次树，选择具有细微差异的属性。此过程确保了数据集中的每个三元组（查询图像、文本描述和目标图像）都具有独特的变化，从而为Composed Image Retrieval（CIR）任务提供了丰富的训练和测试样本。

特点

EUFCC-CIR数据集的显著特点在于其多模态查询的构建方式，每个查询由一个图像和一段描述所需属性修改的文本组成。此外，数据集的构建过程中采用了严格的过滤和多样化策略，确保了数据的高质量和多样性。该数据集特别适用于Galleries, Libraries, Archives, and Museums（GLAM）领域的CIR任务，填补了该领域内CIR数据集的空白。

使用方法

EUFCC-CIR数据集适用于多种CIR模型的训练和评估，特别是那些需要处理多模态查询的模型。用户可以通过提供的训练、验证和测试集来训练和测试其CIR模型。数据集的结构设计使得模型能够在不同层次的视觉和文本信息上进行学习，从而提高其在实际GLAM集合中的检索性能。此外，数据集还支持零样本学习方法的评估，为研究者提供了丰富的实验平台。

背景与挑战

背景概述

在人工智能与数字人文的交汇点上，图像检索技术在文化资产的大规模集合中扮演着关键角色。EUFCC-CIR数据集由Francesc Net和Lluis Gomez在巴塞罗那自治大学的计算机视觉中心创建，旨在填补数字人文领域中组合图像检索（CIR）资源的空白。该数据集基于EUFCC-340K图像标注数据集，包含超过18万个注释的CIR三元组，每个三元组由一个多模态查询（输入图像加上描述所需属性操作的简短文本）和一组相关的目标图像组成。EUFCC-CIR数据集的构建不仅丰富了CIR任务的资源，还通过其独特的特性展示了在数字人文研究中的价值。

当前挑战

EUFCC-CIR数据集在构建过程中面临多重挑战。首先，组合图像检索任务本身要求模型能够理解和处理图像与文本的复杂交互，这对模型的跨模态理解能力提出了高要求。其次，数据集的构建需要从庞大的EUFCC-340K数据集中筛选和生成高质量的查询-目标图像对，这一过程涉及复杂的自动化处理和过滤策略。此外，确保数据集的多样性和代表性，避免数据冗余和偏差，也是一项艰巨的任务。最后，如何在实际应用中验证和优化CIR模型的性能，以应对文化资产检索的特定需求，是该数据集面临的另一大挑战。

常用场景

经典使用场景

在文化遗产领域，EUFCC-CIR数据集的经典使用场景主要集中在组合图像检索（CIR）任务上。该数据集通过结合图像和描述性文本，使得用户能够根据特定的文化艺术品进行检索，例如通过描述改变材质或对象类型的需求，来查找相关的图像。这种多模态的检索方式极大地丰富了用户在博物馆、图书馆、档案馆和美术馆（GLAM）中的体验，使得文化艺术品的检索更加精准和个性化。

衍生相关工作

基于EUFCC-CIR数据集，研究人员开发了多种组合图像检索模型，如Pic2Word和Mixture方法，这些模型在零样本学习中表现出色。此外，该数据集还促进了跨模态检索技术的研究，推动了视觉和语言模型的融合。这些衍生工作不仅在学术界引起了广泛关注，也为文化遗产的数字化保护和利用提供了新的技术支持。

数据集最近研究