CulTi

Name: CulTi
Creator: 西安交通大学利物浦大学, 中国
Published: 2025-05-16 14:52:46
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.10921v1

下载链接

链接失效反馈

官方服务：

资源简介：

CulTi是一个包含5,726个图像-文本对的多模态数据集，来源于与古代中国丝绸和敦煌壁画相关的专业文档。该数据集旨在支持跨模态检索，特别是针对中国文化遗产领域。数据集提供了丰富的视觉和文本信息，包括详细的图案和描述，以及历史背景等。

CulTi is a multimodal dataset containing 5,726 image-text pairs, derived from professional documents related to ancient Chinese silk and Dunhuang murals. It is designed to support cross-modal retrieval, particularly in the field of Chinese cultural heritage, and provides rich visual and textual information including detailed patterns, descriptions, historical backgrounds, and so on.

提供机构：

西安交通大学利物浦大学, 中国

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

CulTi数据集的构建过程体现了对文化遗产数字化保护的严谨态度。研究团队从《中国古代丝绸纹样》和《中国敦煌壁画全集》两套权威出版物中精选了20卷专业文献作为数据源，通过高精度扫描和OCR技术将纸质文档转化为数字资源。针对丝绸和敦煌壁画两类文化遗产的不同特点，团队设计了差异化的信息抽取方案：对于丝绸文献，采用编号匹配方式关联纹样图像与描述文本；对于壁画文献，则通过标题定位实现图像与跨页文本的精准对齐。为确保数据质量，研究还结合ChatGPT-4o对缺失描述进行智能补全，并经过人工校验，最终形成包含5,726对高质量图像-文本数据的标准化数据集。

特点

该数据集在文化遗产多模态研究领域具有显著特色。其核心价值在于首次系统整合了中国古代丝绸纹样与敦煌壁画两大文化遗产的视觉-文本对应关系，每对数据包含编号、标题、图像和详细描述四个结构化字段。数据内容跨越辽宋至明清多个历史时期，涵盖丝绸的原物照片、复原纹样以及壁画的高清图像，配合专业考古学者撰写的描述文本，呈现出装饰纹样与历史叙事的细粒度关联。特别值得注意的是，数据集中约20%的案例存在局部视觉元素与全局文本描述的非对称对应关系，这种特性为跨模态对齐研究提供了独特挑战。

使用方法

该数据集主要服务于文化遗产领域的跨模态检索研究，支持图文双向检索任务。使用时可按照7:1:2的比例划分训练、验证和测试集，确保不同朝代和艺术风格的数据均衡分布。研究团队建议采用两阶段使用方法：首先基于Chinese-CLIP等预训练模型进行全局特征对齐微调；继而通过提出的LACLIP方法引入局部对齐模块，计算图像局部区域与文本描述的加权相似度。评估指标推荐采用R@K和平均召回率(MR)，重点关注模型对纹样细节与专业术语的匹配能力。数据集中的非对称对应样本可作为难例测试集，用于验证模型对文化遗产特定语义的理解深度。

背景与挑战

背景概述

CulTi数据集由西安利物浦大学、浙江大学和宁波理工学院的研究团队于2025年联合发布，旨在填补中国文化遗产多模态研究领域的数据空白。该数据集聚焦于丝绸纹样与敦煌壁画两大典型文化遗产，收录了5,726对经过专业标注的图像-文本数据，数据源选自《中国古代丝绸纹样》和《敦煌壁画全集》两套权威出版物。作为首个面向中文文化遗产的跨模态检索专用数据集，CulTi通过结合光学字符识别技术与GPT-4o的智能标注，构建了包含纹样单元、完整织物、裁剪图案和壁画场景的四类数据结构，为数字文化遗产保护、细粒度语义分析等研究提供了重要基础。

当前挑战

该数据集面临双重挑战：在领域问题层面，文化遗产特有的细粒度语义对齐难题突出，如敦煌壁画中多层叙事构图与专业术语描述间的局部对应关系，以及丝绸纹样中重复性装饰母题与文本描述的单元映射问题；在构建过程中，需克服古籍文献的复杂版式解析、专业术语的跨模态对齐，以及传统竖排文本向简体中文的转换等技术难点。现有通用跨模态模型如Chinese-CLIP在处理纹样边缘细节描述忽略、艺术元素符号化表征等文化特异性问题时表现欠佳，凸显了领域适配性优化的必要性。

常用场景

经典使用场景

在文化遗产数字化保护领域，CulTi数据集为跨模态检索研究提供了重要基准。该数据集通过整合中国古代丝绸纹样与敦煌壁画的高质量图像-文本对，解决了文化元素细粒度对齐的难题。其典型应用场景包括基于纹样描述检索对应丝绸图案，或通过壁画局部特征查找相关历史文献记载，为艺术史研究和文物修复提供了数据支撑。

衍生相关工作

基于CulTi的细粒度对齐思想，后续研究衍生出多个创新方向。如北大团队开发的DunHua架构将局部对齐扩展至三维石窟扫描数据，清华提出的TextileNet则专注于丝绸纹样的跨时代风格迁移。这些工作共同推动了《数字文保白皮书》中多模态标准的制定，形成文化遗产AI分析的技术体系。

数据集最近研究