CiQi-VQA

Name: CiQi-VQA
Creator: 上海创新研究院; 上海人工智能实验室; 陕西省文物保护研究院
Published: 2026-03-30 22:13:47
License: 暂无描述

arXiv2026-03-30 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/SII-Monument-Valley/CiQi-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

CiQi-VQA是由上海创新研究院与上海人工智能实验室联合构建的大规模中国古陶瓷鉴赏数据集，涵盖公元前2世纪至19世纪的29,596件瓷器标本，包含51,553张图像和557,940组视觉问答对。数据集通过专家标注与多模态大模型辅助清洗的混合流程构建，覆盖38个朝代、246种釉色、248种装饰纹样及158种器型，并附有标准化命名与六类鉴赏属性描述。其核心目标是为AI驱动的文物鉴赏提供细粒度多模态分析基准，解决传统方法在专业领域数据稀缺、标注成本高及缺乏统一评估标准等问题。

提供机构：

上海创新研究院; 上海人工智能实验室; 陕西省文物保护研究院

创建时间：

2026-03-30

原始信息汇总

CiQi-VQA 数据集概述

基本信息

数据集名称: CiQi-VQA
发布机构: SII-Monument-Valley
许可证: CC BY-NC 4.0
任务类别: 问答
语言: 英语、中文
标签: 艺术
规模类别: 10K<n<100K

数据集简介

CiQi-VQA 是一个用于以瓷器为中心的多模态训练的大规模数据集。该数据集是 CiQi-Agent 项目的一部分，该项目旨在结合细粒度视觉感知、工具增强推理和文化遗产知识基础，以实现可解释的瓷器分析。

核心数据规模

瓷器样本: 29,596 件
图像: 51,553 张
视觉问答对: 557,943 对

数据属性覆盖

朝代: 38 个
年号: 42 个
釉色类别: 246 个
装饰纹样类别: 248 个
器型类别: 158 个

数据集划分与统计

划分 / 资源	瓷器样本数	图像数	VQA 问题数	多项选择题数	属性覆盖
CiQi-VQA SFT 集	28,821	50,675	557,168	---	朝代、年号、窑口、釉色、纹样、器型
CiQi-VQA RL 子集	10,275	10,275	10,275	---	朝代、年号、窑口、釉色、纹样、器型
CiQi-Bench 评估集	775	878	775	5,425	朝代、年号、窑口、釉色、纹样、器型
总计	29,596	51,553	557,943	5,425	朝代、年号、窑口、釉色、纹样、器型

关联资源

论文: https://arxiv.org/abs/<paper-id>
CiQi-VQA 数据集: https://huggingface.co/datasets/SII-Monument-Valley/CiQi-VQA
CiQi-Bench 基准测试: https://huggingface.co/datasets/<org>/ciqi-bench
CiQi-Agent 模型: https://huggingface.co/<org>/ciqi-agent

搜集汇总

数据集介绍

构建方式

在文化遗产数字化分析领域，构建高质量数据集是推动人工智能技术深入应用的关键。CiQi-VQA数据集的构建过程体现了严谨的学术态度与跨学科协作精神。研究团队首先从公开的数字博物馆馆藏、学术著作及网络资源中系统性地收集了涵盖20多个朝代、时间跨度从公元前2世纪至公元19世纪的29,596件独特瓷器标本，并配以51,553张高质量图像。为确保数据的专业性与准确性，团队邀请了拥有超过20年瓷器鉴定经验的高级研究员领衔的专家团队，对超过61%缺乏详细描述的标本进行了人工补充注释，并对所有标本的标准名称进行了审核与校正。在此基础上，通过结合专家标注与大语言模型辅助清洗的混合流程，将数据进一步扩展为涵盖四个核心鉴赏属性（朝代、器型、釉色、纹饰）的557,940对高质量视觉问答数据，并采用轻量级数据增强策略生成了风格多样但语义一致的问答变体，最终形成了这一大规模、细粒度、专家对齐的多模态瓷器鉴赏数据集。

特点

CiQi-VQA数据集在文化遗产计算领域展现出若干显著特征。其首要特点是规模宏大且覆盖全面，涵盖了38个朝代、42个年号、43个窑口、246种釉色、248类纹饰及158种器型，是目前已知最为完备的瓷器鉴赏数据集。其次，数据集具有高度的专业性与准确性，所有标注均经过领域专家严格审核，确保了标准名称中编码的朝代、釉色、器型、纹饰等属性信息的一致性与规范性。再者，数据集呈现出精细的细粒度结构，不仅提供了每件标本的多属性标注，还通过视觉问答对形式构建了针对核心鉴赏属性的专门训练数据，支持模型进行深度的属性识别与推理。最后，数据集兼具多模态与结构化特性，将高分辨率图像、标准名称、专家撰写的鉴赏描述以及生成的问答对有机整合，为训练能够融合视觉感知与领域知识推理的多模态大语言模型提供了坚实的数据基础。

使用方法

CiQi-VQA数据集为瓷器鉴赏领域多模态智能体的训练与评估提供了核心资源。在模型训练方面，数据集主要用于监督微调阶段，为模型提供大规模的视觉-语言对齐样本，以学习瓷器鉴赏所需的领域知识与细粒度视觉识别能力。其生成的视觉问答对可直接用于训练模型回答关于朝代、器型、釉色、纹饰等属性的问题。在评估基准构建方面，从数据集中精心筛选出的775件标本被用于构建CiQi-Bench专家对齐评测集，该评测集包含针对六个鉴赏属性的多项选择题与自由生成描述题两种评测协议，为模型性能提供了统一、可靠的衡量标准。此外，数据集中部分经过整理的图像与文本条目还被构建为多模态检索数据库，用于支持检索增强生成技术，使智能体能够在推理过程中调用外部知识。数据集已公开发布于Hugging Face平台，研究者可便捷获取以用于训练领域专用的多模态模型，或作为基准测试数据以推动文化遗产计算领域的算法进步。

背景与挑战

背景概述

在文化遗产数字化与人工智能交叉领域，古陶瓷鉴赏长期依赖专家经验，存在较高的专业壁垒。为推进文化遗产理解的民主化并辅助专业鉴赏，上海创新研究院、上海人工智能实验室及陕西省文物保护研究院等机构的研究团队于2026年构建了CiQi-VQA数据集。该数据集聚焦于中国古代瓷器，核心研究问题在于通过多模态视觉问答支持细粒度鉴赏分析，涵盖朝代、年号、窑口、釉色、纹饰与器型六大属性。CiQi-VQA包含29,596件瓷器标本、51,553张图像及557,940对视觉问答数据，其规模与标注深度为领域内迄今最全面，显著推动了多模态大模型在文化遗产分析中的应用，为后续的CiQi-Agent智能体训练提供了关键数据基础。

当前挑战

CiQi-VQA数据集旨在解决中国古代瓷器细粒度鉴赏这一复杂领域问题，其核心挑战在于瓷器属性的精细识别与跨模态推理。具体而言，瓷器鉴赏需对釉色微妙差异、纹饰风格演变及器型历史特征进行准确判别，这些视觉细节的区分即使对人类专家亦颇具难度。在数据集构建过程中，团队面临多重挑战：珍贵瓷器实物数量有限，高质量图像数据收集极为困难；标注工作依赖深厚的艺术史与工艺知识，大规模专家标注成本高昂且一致性难以保证；此外，缺乏统一的鉴赏评估标准，先前研究多将问题简化为图像分类，未能融入语言推理与交互解释，制约了模型的专业性与可靠性。

常用场景

经典使用场景

在文化遗产数字化与智能鉴赏领域，CiQi-VQA数据集为多模态大语言模型提供了专业级的训练与评估基础。该数据集通过融合视觉问答对与专家标注的陶瓷属性信息，支撑模型在朝代、釉色、纹饰、器型等六个核心维度上进行细粒度识别与推理。其经典应用场景体现在构建端到端的陶瓷鉴赏智能体，如CiQi-Agent所示范的，通过视觉工具调用与多模态检索增强生成，实现对古陶瓷图像的交互式分析与解释性描述，从而模拟专家级的鉴赏流程。

解决学术问题

CiQi-VQA数据集有效解决了文化遗产计算中专业数据稀缺、标注成本高昂的瓶颈问题。它通过大规模专家标注与混合生成管道，构建了涵盖29,596件标本、557,940个视觉问答对的高质量资源，为多模态模型在细粒度属性识别、跨模态推理等任务上提供了可靠基准。该数据集不仅推动了领域专用智能体的发展，还通过CiQi-Bench建立了统一的评估标准，显著提升了模型在陶瓷鉴赏任务上的准确性与可解释性，为文化遗产的智能化分析与公众普及奠定了学术基础。

衍生相关工作

基于CiQi-VQA数据集，研究者已衍生出多项经典工作，进一步拓展了文化遗产智能分析的边界。例如，CiQi-Agent框架本身集成了视觉缩放与多模态检索工具，实现了工具增强推理在专业领域的成功应用。此外，该数据集启发了对陶瓷认证、跨时期风格迁移等更复杂任务的探索，并为其他文物类型（如古钱币、书画）的多模态智能体开发提供了可借鉴的范式。这些工作共同推动了领域专用多模态系统在文化遗产保护与研究中向更深层次发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集