EUFCC-CIR

Name: EUFCC-CIR
Creator: 巴塞罗那自治大学计算机视觉中心
Published: 2024-10-03 18:57:59
License: 暂无描述

arXiv2024-10-03 更新2024-10-06 收录

下载链接：

https://github.com/cesc47/EUFCC-CIR

下载链接

链接失效反馈

官方服务：

资源简介：

EUFCC-CIR数据集是为画廊、图书馆、档案馆和博物馆（GLAM）收藏中的组合图像检索（CIR）任务设计的。该数据集基于EUFCC-340K图像标注数据集构建，包含超过18万条注释的CIR三元组。每个三元组由一个多模态查询（输入图像加上描述所需属性操作的简短文本）和一组相关的目标图像组成。数据集的创建过程涉及自动化处理和过滤启发式方法，确保数据集的丰富性和多样性。EUFCC-CIR数据集的应用领域主要集中在数字人文研究，旨在通过CIR技术增强用户对文化遗产收藏的搜索和理解能力。

The EUFCC-CIR dataset is designed for the task of composite image retrieval (CIR) in the collections of galleries, libraries, archives, and museums (GLAM). Built upon the EUFCC-340K image annotation dataset, this dataset contains over 180,000 annotated CIR triplets. Each triplet consists of a multimodal query (an input image plus a short text describing the required attribute manipulations) and a set of relevant target images. The dataset creation process involves automated processing and heuristic filtering methods to ensure the richness and diversity of the dataset. The application scenarios of the EUFCC-CIR dataset mainly focus on digital humanities research, aiming to enhance users' ability to search for and understand cultural heritage collections through CIR technology.

提供机构：

巴塞罗那自治大学计算机视觉中心

创建时间：

2024-10-02

原始信息汇总

EUFCC-CIR: A Composed Image Retrieval Dataset for GLAM Collections

概述

作者: Francesc Net, Lluis Gomez
机构: Computer Vision Center, Universitat Autònoma de Barcelona
数据集类型: 组合图像检索（CIR）
应用领域: 画廊、图书馆、档案馆和博物馆（GLAM）收藏
基础数据集: EUFCC-340K
数据量: 超过180K个精心标注的CIR三元组

数据集结构

文件夹: data/
关键文件:
- db_processed.txt: 图像列表，分配到训练、验证、测试分区
- cir_db.csv: 包含图像-文本对及其对应目标图像的详细信息

CSV列说明

列名	描述
id1	第一个图像的标识符
id2	第二个图像的标识符
materials_1	第一个图像中的材料，指定第一个对象中使用的物质或材料
ObjectTypes_1	第一个图像中的对象类型，定义表示的对象类别或类型
materials_2	第二个图像中的材料，指定第二个对象中使用的物质或材料
ObjectTypes_2	第二个图像中的对象类型，定义表示的对象类别或类型
element_to_change	两个图像之间必须改变的元素（材料或对象类型）
element_changed	两个图像之间已改变的元素（材料或对象类型）
partition	表示该行所属的数据集分区（训练、验证、测试）
query	描述检索任务，指示从`id1`到`id2`的转换应如何发生

示例

数据集中每个行表示两个图像（id1和id2）之间的关系，其中一个图像中的元素被修改以生成第二个图像。

安装与使用

克隆仓库并从EUFCC-340K数据集下载必要文件。 bash git clone https://github.com/your-username/EUFCC-CIR.git cd EUFCC-CIR/data

下载数据集文件（从EUFCC-340K仓库 => 链接在开头）

搜集汇总

数据集介绍

构建方式

EUFCC-CIR数据集的构建基于EUFCC-340K数据集，通过自动化流程和筛选启发式方法，从欧洲文化遗产业界收集的346,000张标注图像中提取出超过180,000个CIR三元组。每个三元组由一个多模态查询（包含一张输入图像和一段描述所需属性修改的简短文本）和一组相关的目标图像组成。构建过程中，首先识别具有相同‘对象类型’但‘材料’标注不同的图像，反之亦然，确保数据集捕捉到CIR任务所需的显著差异。通过应用启发式和过滤器，增强了数据集的丰富性，确保每个元素元组独特且多样化。数据集最终分为训练、验证和两个测试集，以支持CIR模型的全面评估和比较。

特点

EUFCC-CIR数据集的显著特点在于其针对文化遗产业界（GLAM）的特定需求设计，填补了CIR领域在数字人文资源中的空白。数据集包含的多模态查询和目标图像对，能够有效支持跨模态检索任务。此外，数据集的构建过程中采用了严格的筛选和启发式方法，确保了数据的高质量和多样性。通过在训练、验证和测试集中的不同分割策略，数据集能够有效评估和提升CIR模型在实际应用中的鲁棒性和适用性。

使用方法

EUFCC-CIR数据集适用于多种CIR模型的训练和评估，特别是在零样本学习（zero-shot learning）和跨模态检索任务中。研究者可以使用该数据集来开发和测试新的CIR算法，通过多模态查询和目标图像对，探索图像和文本信息的融合策略。数据集的公开可用性（https://github.com/cesc47/EUFCC-CIR）为学术界和工业界的研究人员提供了宝贵的资源，促进了数字人文领域中图像检索技术的进步。

背景与挑战

背景概述

在人工智能与数字人文的交汇点上，EUFCC-CIR数据集应运而生，旨在通过组合图像检索（CIR）技术，深化对美术馆、图书馆、档案馆和博物馆（GLAM）收藏的理解与探索。该数据集由Francesc Net和Lluis Gomez领导的计算机视觉中心（CVC）与巴塞罗那自治大学（UAB）合作开发，基于EUFCC-340K数据集构建，包含超过18万条注释的CIR三元组。每个三元组由多模态查询（输入图像及描述所需属性修改的简短文本）和一组相关目标图像组成。EUFCC-CIR数据集填补了数字人文领域CIR专用资源的空白，通过与现有CIR数据集的比较，突显其独特性，并评估了多种零样本CIR基线的性能。

当前挑战

EUFCC-CIR数据集的构建面临多重挑战。首先，组合图像检索在GLAM收藏中的应用需要处理复杂的查询需求，如图像与文本的跨模态检索。其次，数据集的构建过程涉及从EUFCC-340K数据集中自动生成查询-响应对，这要求高度精确的自动化流程和过滤策略，以确保数据的质量和多样性。此外，尽管EUFCC-340K数据集提供了丰富的元数据，但其注释的噪声和部分性仍对CIR任务构成挑战。最后，数据集的分割策略，特别是内外测试集的设计，旨在评估模型在不同数据分布下的泛化能力，这对模型的鲁棒性和实际应用性提出了高要求。

常用场景

经典使用场景

在文化遗产领域，EUFCC-CIR数据集被广泛应用于组合图像检索（CIR）任务。该数据集通过结合图像和简短文本描述，帮助用户在大型文化资产集合中快速定位和检索特定变体或增强的文化艺术品。例如，用户可以通过提供一张银币图像和文本描述“将银改为铜”，系统能够检索出铜币图像，从而实现对文化艺术品的精细化检索。

解决学术问题

EUFCC-CIR数据集填补了组合图像检索在数字人文领域数据资源的空白，解决了以往数据集在多模态查询处理上的不足。通过提供丰富的图像和文本对，该数据集促进了零样本学习方法的发展，使得模型能够在没有特定训练数据的情况下进行有效的图像检索。这不仅推动了文化遗产数据的智能化处理，还为跨模态检索技术的发展提供了新的研究方向。

衍生相关工作

基于EUFCC-CIR数据集，研究者们开发了多种组合图像检索模型，如Pic2Word和TIRG等，这些模型通过融合图像和文本特征，显著提升了检索的准确性和效率。此外，该数据集还激发了在零样本学习和跨模态检索领域的进一步研究，推动了视觉语言模型在文化遗产数据处理中的应用。这些衍生工作不仅丰富了文化遗产数据的智能化处理手段，也为相关领域的技术进步提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集