NPM-Artifacts-zh

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/danqing-ai/NPM-Artifacts-zh

下载链接

链接失效反馈

官方服务：

资源简介：

台北故宫博物院绘画藏品数据集包含了来自台北故宫博物院开放数据平台的高解析度文物图像和与之对应的繁体中文元数据。这些元数据详细记录了文物的名称、年代、尺寸、材质、题跋、印记等信息。数据集适用于计算机视觉、自然语言处理、数字人文等多个领域的研究和应用。

The National Palace Museum (Taipei) Painting Collection Dataset includes high-resolution images of cultural relics and their corresponding Traditional Chinese metadata obtained from the open data platform of the National Palace Museum (Taipei). The metadata comprehensively records information such as the relic's name, era, dimensions, material, colophons, seals, and other relevant details. This dataset supports research and applications across multiple fields including computer vision, natural language processing, and digital humanities.

创建时间：

2025-08-17

原始信息汇总

台北故宫博物院绘画藏品数据集

数据集概述

本数据集收集并整理了来自台北故宫博物院开放数据平台的公开文物数据，包含高解析度的文物图像以及与之对应的、丰富的结构化元数据。元数据均为繁体中文，详细描述了文物的名称、年代、尺寸、材质、题跋、印记等信息。

数据集内容

metadata.csv: 包含所有文物元数据总表的CSV文件，每一行对应一件文物，字段被序列化为JSON字符串。
image_analysis.csv: 对已下载图片的分析结果，包含图片路径、宽度、高度和文件大小。
images/ (待上传): 存放所有文物图片的目录，包含主图和细节图。

数据字段说明 (metadata.csv & data/*.json)

UniqueID: 文物唯一ID。
URL: 原始的文物详情页链接。
文物名称: 文物的官方名称。
基本資料: 包含“品名”、“作者”、“朝代”、“格式/尺寸”等基本信息的JSON对象。
典藏尺寸: 包含“形式”、“画幅尺寸”、“裱绫尺寸”等详细尺寸信息的JSON数组。
质地: 包含“主要质地”、“次要质地”的JSON数组。
题跋资料: 包含题跋者、内容、资料来源等的JSON数组。
印记资料: 包含印记释文、资料来源等的JSON数组。
主题: 描述文物主题的关键词JSON数组 (例如：山水、花鸟、人物等)。
技法: 描述文物所用技法的关键词JSON数组 (例如：设色、水墨、描金等)。
參考資料: 参考文献列表。
保存維護: 文物的保存与维护信息。

用途与任务

图像分类: 根据文物图片对其朝代、作者或主题进行分类。
图像描述生成 (Image Captioning): 训练模型为文物图片生成描述性文字。
文本到图像生成 (Text-to-Image): 使用元数据中的描述文字来生成对应的文物图像。
光学字符识别 (OCR): 对书画作品中的题跋、印记进行文字识别。
数字人文研究: 对文物的各种元数据进行量化分析和可视化。

作者

[huaaaxuan] - https://huggingface.co/Huaaaxuan | 2906805859@qq.com | GitHub
[唐豆] - https://tangdoou.github.io/ | GitHub: tangdoou

授权与引用

本数据集的内容来源于台北故宫博物院开放数据平台，遵循“政府資料開放授權條款1.0版 (Open Government Data License, version 1.0)”。您可以自由地重制、散布、公开传输、公开发表、发行、利用本数据集，或进行各种衍伸创作，无需付费、也无需另外申请。

如何引用

本研究使用的数据集由 "NPM-Artifacts-zh" 项目收集、整理自台北故宫博物院开放数据平台 (https://digitalarchive.npm.gov.tw/opendata/)。

搜集汇总

数据集介绍

构建方式

在文化遗产数字化保护与传播的背景下，NPM-Artifacts-zh数据集通过系统化采集台北故宫博物院开放数据平台的高解析度文物图像及元数据构建而成。构建过程涉及数据爬取、清洗与结构化处理，将原始繁体中文元数据解析为包含文物名称、年代、尺寸、材质、题跋及印记等信息的标准化JSON格式，确保了数据的完整性与机器可读性。

特点

该数据集的核心特点在于其深度融合了高精度视觉数据与丰富的文本描述，涵盖山水、花鸟、人物等多类主题及设色、水墨等技法标签。元数据以结构化形式呈现，支持跨模态研究；图像资源涵盖主图与细节图，为细粒度分析提供基础。其繁体中文语境与文化遗产属性，为数字人文领域提供了独特的研究价值。

使用方法

研究者可通过加载metadata.csv与图像目录，直接访问结构化元数据及对应图像路径，适用于图像分类、描述生成、文本到图像生成等任务。利用典藏尺寸、质地、题跋等字段，可进行多维度量化分析或跨模态模型训练。使用需遵循政府資料開放授權條款，标注数据来源并保留作者署名。

背景与挑战

背景概述

在数字人文与文化遗产保护领域，台北故宫博物院绘画藏品数据集（NPM-Artifacts-zh）由研究者huaaaxuan与唐豆于近年构建，依托博物院开放数据平台，整合高解析度文物图像与结构化元数据。该数据集聚焦于中国传统书画艺术的多模态研究，核心问题在于如何通过计算手段解析文物视觉特征与文本元数据的关联，推动计算机视觉、自然语言处理及数字人文的交叉研究，为文化传承提供数据支撑。

当前挑战

该数据集旨在解决文化遗产数字化中的多模态理解挑战，包括图像分类、描述生成和文本到图像合成等任务，需克服艺术图像风格多样、元数据语言复杂性及跨领域语义对齐等难题。构建过程中，面临高分辨率图像处理与存储、繁体中文元数据标准化、题跋印记OCR识别精度以及文化术语多义性等实际挑战，需兼顾数据完整性与计算可行性。

常用场景

经典使用场景

在文化遗产数字化研究领域，该数据集为图像描述生成任务提供了高质量的中文标注资源。研究者可利用文物图像与结构化元数据的对应关系，训练跨模态理解模型学习将视觉特征转化为符合艺术史语境的文本描述，典型应用于自动生成书画作品的技法分析与主题阐释。

衍生相关工作

基于该数据集衍生了多个经典研究方向，例如结合题跋OCR与主题分类的书画知识图谱构建，采用多标签学习机制的朝代-作者联合预测模型，以及融合材质与技法特征的生成式对抗网络，这些工作显著推动了数字人文领域的技术创新与跨学科融合。

数据集最近研究