Image–Text Pairs

github2025-12-05 更新2025-12-06 收录

下载链接：

https://github.com/REEVALUATE/knowledge_enhanced_multimodal_retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

用于CLIP微调和基准测试的数据集（从KG生成）。数据集包括：文物图像、自动生成的描述文本、合成用户类查询文本。包含约43k个图像-描述-查询三元组，用于实验。

A dataset for CLIP fine-tuning and benchmarking, generated from Knowledge Graphs (KGs). This dataset comprises cultural relic images, automatically generated descriptive texts, and synthetic user-like query texts. It contains approximately 43k image-description-query triplets for experimental studies.

创建时间：

2025-12-05

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Knowledge-Enhanced Multimodal Retrieval 数据集（Image–Text Pairs）
发布地址: https://huggingface.co/datasets/xuemduan/reevaluate-image-text-pairs
数据规模: 约43,000个三元组（图像-描述-查询）
来源: 从知识图谱（https://loki.linksfoundation.com/reevaluate-graphdb/graphs）生成

数据集内容

图像: 文物图像
文本: 自动生成的描述文本
查询: 合成的用户式查询文本

数据集用途

用于CLIP模型的微调
用于基准测试

关联资源

微调后的CLIP模型: https://huggingface.co/xuemduan/reevaluate-clip
源代码: 包含完整的实验实现，位于本代码库中

搜集汇总

数据集介绍

构建方式

在文化遗产数字化的背景下，Image–Text Pairs数据集通过自动化流程从文化遗产知识图谱中提取并生成。该数据集构建的核心在于利用知识图谱中的结构化信息，自动为每件文物图像生成描述性文本，并进一步合成模拟用户查询的文本，从而形成图像-描述-查询三元组。整个过程强调数据生成的自动化与可扩展性，确保了约43,000条高质量多模态样本的汇集，为文化遗产领域的多模态检索研究提供了坚实基础。

特点

该数据集显著特点在于其紧密结合文化遗产领域知识，每一条数据均由图像、自动生成的描述文本以及合成的用户查询文本构成，形成了结构化的三元组。这种设计不仅支持传统的图文检索任务，还能模拟真实用户交互场景，增强检索系统的实用性。数据集规模适中，覆盖广泛的文化遗产实体，其多模态特性为领域自适应的模型微调与评估提供了丰富资源，尤其适合用于知识增强的多模态检索系统开发。

使用方法

该数据集主要用于微调与评估多模态检索模型，特别是CLIP架构的领域自适应训练。用户可通过提供的脚本加载数据集，进行文本到图像或文本到文本的检索任务训练与测试。数据集与发布的微调CLIP模型及实验代码无缝集成，支持完整的训练、评估及知识增强融合流程。研究人员可依据文档指引，快速复现论文中的实验，或基于此数据集开发新的文化遗产多模态检索方法。

背景与挑战

背景概述

在文化遗产数字化保护的学术浪潮中，多模态检索技术扮演着日益关键的角色。Image–Text Pairs数据集由研究团队为支持ESWC 2026会议论文《Knowledge-Enhanced Multimodal Retrieval over Cultural Heritage Knowledge Graphs》而构建，其核心目标在于解决文化遗产知识图谱中图像与文本的跨模态对齐与检索问题。该数据集从公开知识图谱中衍生，包含约四万三千个由文物图像、自动生成描述文本及合成用户查询文本构成的三元组，旨在为领域自适应的CLIP模型微调提供高质量基准，进而推动文化遗产的智能化访问与知识发现。

当前挑战

该数据集致力于应对文化遗产领域多模态检索的固有挑战，即如何在语义丰富的文物图像与多样化的文本描述之间建立精准的关联，以支持复杂且开放式的用户查询。在构建过程中，研究人员面临从非结构化知识图谱中自动化提取并生成高质量图像-文本对的难题，需确保生成的描述文本既忠实于文物实体的知识属性，又能模拟真实用户的查询意图与语言风格，同时维持数据规模与语义多样性之间的平衡。

常用场景

经典使用场景

在文化遗产数字化领域，Image–Text Pairs数据集为多模态检索研究提供了关键支持。该数据集通过整合文物图像、自动生成的描述文本以及合成用户查询，构建了一个丰富的图文对集合，广泛应用于跨模态对齐模型的微调与评估。研究人员利用该数据集训练和优化CLIP等视觉语言模型，以提升模型在文化遗产场景下的图文匹配能力，从而实现对文物资源的精准检索与理解。

解决学术问题

该数据集有效应对了文化遗产领域中多模态数据融合与知识推理的学术挑战。它通过提供大规模、结构化的图文对数据，解决了传统方法在跨模态语义对齐方面的不足，促进了基于知识图谱的增强检索技术的发展。其意义在于推动了文化遗产数字化保护与智能检索系统的研究，为多模态人工智能在特定领域的应用奠定了数据基础，并拓展了知识增强检索的理论框架。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，特别是在知识增强的多模态检索方向。例如，原论文提出的集成CLIP微调与Text2SPARQL模块的融合架构，便是基于该数据集构建的典型系统。此外，该数据集也激发了后续研究在跨模态预训练、领域自适应检索以及文化遗产知识图谱推理等方面的探索，推动了多模态人工智能在文化遗产领域的持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集