five

CulTi

收藏
arXiv2025-05-16 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.10921v1
下载链接
链接失效反馈
官方服务:
资源简介:
CulTi是一个包含5,726个图像-文本对的多模态数据集,来源于与古代中国丝绸和敦煌壁画相关的专业文档。该数据集旨在支持跨模态检索,特别是针对中国文化遗产领域。数据集提供了丰富的视觉和文本信息,包括详细的图案和描述,以及历史背景等。

CulTi is a multimodal dataset containing 5,726 image-text pairs, derived from professional documents related to ancient Chinese silk and Dunhuang murals. It is designed to support cross-modal retrieval, particularly in the field of Chinese cultural heritage, and provides rich visual and textual information including detailed patterns, descriptions, historical backgrounds, and so on.
提供机构:
西安交通大学利物浦大学, 中国
创建时间:
2025-05-16
搜集汇总
数据集介绍
main_image_url
构建方式
CulTi数据集的构建过程体现了对文化遗产数字化保护的严谨态度。研究团队从《中国古代丝绸纹样》和《中国敦煌壁画全集》两套权威出版物中精选了20卷专业文献作为数据源,通过高精度扫描和OCR技术将纸质文档转化为数字资源。针对丝绸和敦煌壁画两类文化遗产的不同特点,团队设计了差异化的信息抽取方案:对于丝绸文献,采用编号匹配方式关联纹样图像与描述文本;对于壁画文献,则通过标题定位实现图像与跨页文本的精准对齐。为确保数据质量,研究还结合ChatGPT-4o对缺失描述进行智能补全,并经过人工校验,最终形成包含5,726对高质量图像-文本数据的标准化数据集。
特点
该数据集在文化遗产多模态研究领域具有显著特色。其核心价值在于首次系统整合了中国古代丝绸纹样与敦煌壁画两大文化遗产的视觉-文本对应关系,每对数据包含编号、标题、图像和详细描述四个结构化字段。数据内容跨越辽宋至明清多个历史时期,涵盖丝绸的原物照片、复原纹样以及壁画的高清图像,配合专业考古学者撰写的描述文本,呈现出装饰纹样与历史叙事的细粒度关联。特别值得注意的是,数据集中约20%的案例存在局部视觉元素与全局文本描述的非对称对应关系,这种特性为跨模态对齐研究提供了独特挑战。
使用方法
该数据集主要服务于文化遗产领域的跨模态检索研究,支持图文双向检索任务。使用时可按照7:1:2的比例划分训练、验证和测试集,确保不同朝代和艺术风格的数据均衡分布。研究团队建议采用两阶段使用方法:首先基于Chinese-CLIP等预训练模型进行全局特征对齐微调;继而通过提出的LACLIP方法引入局部对齐模块,计算图像局部区域与文本描述的加权相似度。评估指标推荐采用R@K和平均召回率(MR),重点关注模型对纹样细节与专业术语的匹配能力。数据集中的非对称对应样本可作为难例测试集,用于验证模型对文化遗产特定语义的理解深度。
背景与挑战
背景概述
CulTi数据集由西安利物浦大学、浙江大学和宁波理工学院的研究团队于2025年联合发布,旨在填补中国文化遗产多模态研究领域的数据空白。该数据集聚焦于丝绸纹样与敦煌壁画两大典型文化遗产,收录了5,726对经过专业标注的图像-文本数据,数据源选自《中国古代丝绸纹样》和《敦煌壁画全集》两套权威出版物。作为首个面向中文文化遗产的跨模态检索专用数据集,CulTi通过结合光学字符识别技术与GPT-4o的智能标注,构建了包含纹样单元、完整织物、裁剪图案和壁画场景的四类数据结构,为数字文化遗产保护、细粒度语义分析等研究提供了重要基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,文化遗产特有的细粒度语义对齐难题突出,如敦煌壁画中多层叙事构图与专业术语描述间的局部对应关系,以及丝绸纹样中重复性装饰母题与文本描述的单元映射问题;在构建过程中,需克服古籍文献的复杂版式解析、专业术语的跨模态对齐,以及传统竖排文本向简体中文的转换等技术难点。现有通用跨模态模型如Chinese-CLIP在处理纹样边缘细节描述忽略、艺术元素符号化表征等文化特异性问题时表现欠佳,凸显了领域适配性优化的必要性。
常用场景
经典使用场景
在文化遗产数字化保护领域,CulTi数据集为跨模态检索研究提供了重要基准。该数据集通过整合中国古代丝绸纹样与敦煌壁画的高质量图像-文本对,解决了文化元素细粒度对齐的难题。其典型应用场景包括基于纹样描述检索对应丝绸图案,或通过壁画局部特征查找相关历史文献记载,为艺术史研究和文物修复提供了数据支撑。
衍生相关工作
基于CulTi的细粒度对齐思想,后续研究衍生出多个创新方向。如北大团队开发的DunHua架构将局部对齐扩展至三维石窟扫描数据,清华提出的TextileNet则专注于丝绸纹样的跨时代风格迁移。这些工作共同推动了《数字文保白皮书》中多模态标准的制定,形成文化遗产AI分析的技术体系。
数据集最近研究
最新研究方向
近年来,CulTi数据集在跨模态检索领域的研究方向主要集中在提升细粒度语义对齐能力,特别是在处理中国文化遗产中的复杂视觉元素与专业文本描述的关联性方面。随着数字文化遗产保护的兴起,如何精准实现敦煌壁画纹样与古籍记载的局部对齐成为热点问题。该数据集推动了基于局部视觉特征加权的推理策略发展,如LACLIP模型通过融合区域相似度计算,显著提升了传统纹样与专业术语的匹配精度。这类研究不仅为文化遗产的数字化解读提供了新范式,更对构建具有文化敏感性的多模态大模型具有重要启示意义。
相关研究论文
  • 1
    Towards Cross-modal Retrieval in Chinese Cultural Heritage Documents: Dataset and Solution西安交通大学利物浦大学, 中国 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作