CiQi-VQA
收藏Hugging Face2026-03-30 更新2026-03-31 收录
下载链接:
https://huggingface.co/datasets/SII-Monument-Valley/CiQi-VQA
下载链接
链接失效反馈官方服务:
资源简介:
CiQi-Agent项目专注于中国古董瓷器的鉴赏,通过多模态推理实现细粒度视觉感知、工具增强推理和文化知识融合。项目包含两个主要数据集:CiQi-VQA和CiQi-Bench。CiQi-VQA是一个大规模的多模态训练数据集,包含29,596件瓷器标本、51,553张图像和557,943个视觉问答对,涵盖38个朝代、42个统治时期、246种釉色类别、248种装饰纹样类别和158种器形类别。CiQi-Bench是一个专家对齐的评估基准,包含775件瓷器标本、878张图像和5,425个多项选择题,用于评估瓷器鉴赏能力。数据集适用于视觉问答、多模态推理和文化遗产研究等任务。数据集许可证为CC BY-NC 4.0。
创建时间:
2026-03-26
原始信息汇总
CiQi-VQA 数据集概述
数据集基本信息
- 数据集名称:CiQi-VQA
- 发布机构:SII-Monument-Valley
- 许可证:CC BY-NC 4.0
- 任务类别:问答
- 支持语言:英语、中文
- 标签:艺术
- 数据规模:10K < n < 100K
数据集简介
CiQi-VQA 是一个用于瓷器中心多模态训练的大规模数据集,是 CiQi-Agent 项目的一部分。该项目旨在为中国古代瓷器鉴赏构建一个领域特定的多模态智能体,结合细粒度视觉感知、工具增强推理和文化遗产知识,以实现可解释的瓷器分析。
数据集规模与内容
- 瓷器样本数量:29,596 件
- 图像数量:51,553 张
- 视觉问答对数量:557,943 对
- 涵盖朝代:38 个
- 涵盖年号时期:42 个
- 釉色类别:246 类
- 装饰纹样类别:248 类
- 器型类别:158 类
数据划分与用途
| 划分 / 资源 | 瓷器样本数 | 图像数 | VQA 问题数 | 多项选择题数 | 属性 |
|---|---|---|---|---|---|
| CiQi-VQA SFT 数据 | 28,821 | 50,675 | 557,168 | --- | 朝代、年号、窑口、釉色、纹样、器型 |
| CiQi-VQA RL 子集 | 10,275 | 10,275 | 10,275 | --- | 朝代、年号、窑口、釉色、纹样、器型 |
| CiQi-Bench 评估集 | 775 | 878 | 775 | 5,425 | 朝代、年号、窑口、釉色、纹样、器型 |
| 总计 | 29,596 | 51,553 | 557,943 | 5,425 | 朝代、年号、窑口、釉色、纹样、器型 |
相关资源
- 关联模型:CiQi-Agent(基于 Qwen2.5-VL-7B-Instruct 构建)
- 关联基准:CiQi-Bench(包含 775 件瓷器样本、878 张图像和 5,425 道多项选择题的专家对齐评估基准)
- 论文链接:https://arxiv.org/abs/<paper-id>
- 数据集链接:https://huggingface.co/datasets/SII-Monument-Valley/CiQi-VQA
- 基准链接:https://huggingface.co/datasets/SII-Monument-Valley/CiQi-VQA
- 模型链接:https://huggingface.co/<org>/ciqi-agent
搜集汇总
数据集介绍

构建方式
在文化遗产数字化研究领域,构建高质量的专业数据集是推动智能体发展的基石。CiQi-VQA数据集的构建过程体现了严谨的学术方法,其核心源于对近三万件中国古陶瓷标本的系统性采集与标注。研究团队整合了来自博物馆、考古报告及权威图录的51,553张高分辨率图像,覆盖了从窑口、器型到釉色、纹饰等六个关键鉴赏维度。通过领域专家主导的标注流程,生成了超过55万对视觉问答数据,确保了每一条数据在年代判定、工艺特征和文化内涵上的准确性,为多模态模型提供了深厚的专业知识土壤。
特点
该数据集在古陶瓷计算鉴赏领域展现出鲜明的特色。其规模宏大,涵盖了38个朝代、42个年号纪年以及数百种釉色与纹饰类别,构成了一个时空跨度完整、工艺类型丰富的知识体系。数据结构的精细度尤为突出,每个样本均关联了多角度的图像与多层次的问题,能够支撑模型进行从宏观器型识别到微观釉面开片观察的细粒度推理。这种深度融合视觉证据与文化遗产知识的架构,为探索工具增强的多模态推理提供了理想的实验场。
使用方法
对于致力于文化遗产人工智能的研究者而言,CiQi-VQA数据集提供了标准化的使用路径。数据集可直接通过HuggingFace平台加载,其结构清晰地划分为监督微调与强化学习两个子集,便于开展分阶段的模型训练。在具体应用中,研究者可将其用于训练具备专业鉴赏能力的多模态模型,或作为基准测试数据评估模型在朝代鉴定、窑口判别等具体任务上的性能。数据集配套的CiQi-Bench评估基准进一步提供了多项选择与自由问答两种评测协议,支持对模型推理过程进行可解释的量化分析。
背景与挑战
背景概述
在文化遗产数字化与人工智能交叉领域,针对特定文物的多模态理解正成为前沿研究方向。CiQi-VQA数据集应运而生,专注于中国古代瓷器鉴赏这一高度专业化的领域。该数据集由相关研究团队于2026年前后构建并发布,旨在解决瓷器文物在视觉问答任务中的细粒度感知与文化知识融合问题。其核心研究问题在于如何通过大规模、高质量的多模态数据,训练出能够结合视觉证据、工具增强推理与文化遗产知识进行可解释分析的智能体。该数据集的建立,为计算艺术史与文物智能鉴定领域提供了首个大规模、细粒度的基准资源,推动了多模态人工智能在专业文化遗产分析中的应用深度与精度。
当前挑战
CiQi-VQA数据集致力于解决的领域挑战,在于瓷器鉴赏本身所固有的复杂性。这要求模型不仅需识别瓷器的朝代、窑口、釉色、纹饰、器形等多元属性,更需理解这些属性背后深厚的文化与历史关联,实现从视觉特征到文化语义的跨越。在数据集构建过程中,挑战同样显著:首先,专业知识的标注极度依赖领域专家,确保数十万对问答的准确性与文化一致性耗费巨大;其次,瓷器图像数据涵盖不同拍摄条件、角度与完整性,需在数据收集中保证视觉信息的多样性与代表性;最后,如何设计能够激发模型进行工具增强式推理(如局部放大、图像检索)的问题结构,亦是构建过程中的关键难题。
常用场景
经典使用场景
在文化遗产数字化与人工智能交叉领域,CiQi-VQA数据集为多模态视觉问答研究提供了经典的应用场景。该数据集聚焦于中国古代瓷器鉴赏,通过融合细粒度视觉感知与领域知识,构建了涵盖朝代、窑口、釉色、纹饰、器形等多维属性的问答对。研究者可借助该数据集训练模型,使其能够解析瓷器图像中的复杂视觉特征,并回答涉及历史背景、工艺技术和艺术风格的深层问题,从而推动面向特定文化遗产的多模态理解与推理能力的发展。
实际应用
在实际应用层面,CiQi-VQA数据集为博物馆数字化、智慧文旅和教育普及提供了技术支撑。基于该数据集训练的智能体能够辅助文物专家进行瓷器鉴定、分类与信息检索,提升文物研究与管理的效率。同时,它也可用于开发互动式导览系统或教育工具,向公众生动阐释瓷器的历史价值与艺术内涵,推动文化遗产的活化利用与公众传播,体现了人工智能技术赋能传统文化传承的实践价值。
衍生相关工作
围绕CiQi-VQA数据集,衍生出了一系列重要的研究工作。其核心关联成果CiQi-Agent模型,构建了基于工具增强推理的多模态智能体框架,集成了图像局部放大、图像检索和文本检索等工具,实现了更可解释的瓷器鉴赏分析。同时,配套的CiQi-Bench评估基准为多模态模型在文化遗产领域的性能提供了标准化测试平台。这些工作共同引领了面向垂直领域的、工具驱动的多模态智能体研究范式,并激励了后续在其它文化遗产或专业领域的类似探索。
以上内容由遇见数据集搜集并总结生成



