smk_canon_paintings

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/louisebrix/smk_canon_paintings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了艺术作品相关的详细信息，包括作品的标识符、时间段、起始年份、标题、艺术家信息、作品类型、图片缩略图、性别、出生与逝世年份、国籍、历史、角色、创作者数量、技术、丰富信息链接、内容负责人、是否有文本、颜色、地理位置、熵、标签、图片、RGB值、嵌入、灰度嵌入、灰度图片、展览信息、获取日期、责任部门、文献、展示状态、当前位置、文学引用、物史注、展览地点、SMK展览、展览年份、展览标准、生产差异、生产笔记和生产年份等。数据集适用于艺术作品的研究和分析。

创建时间：

2025-08-05

原始信息汇总

SMK Canon Paintings 数据集概述

数据集基本信息

数据集名称: SMK Canon Paintings
存储位置: https://huggingface.co/datasets/louisebrix/smk_canon_paintings
下载大小: 1,168,139,517 字节
数据集大小: 1,172,752,461.44 字节
训练集样本数: 1,656 个

数据集特征

smk_id: 字符串类型，唯一标识符
period: 字符串类型，时期信息
start_year: 整型，起始年份
title: 字符串类型，作品标题
first_artist: 字符串类型，主要艺术家
all_artists: 字符串序列，所有艺术家
num_artists: 整型，艺术家数量
main_type: 字符串类型，主要类型
all_types: 字符串序列，所有类型
image_thumbnail: 字符串类型，缩略图链接
gender: 字符串序列，性别信息
birth_death: 字符串序列，生卒年份
nationality: 字符串序列，国籍信息
history: 字符串序列，历史信息
artist_roles: 字符串序列，艺术家角色
creator_roles: 字符串序列，创作者角色
num_creators: 整型，创作者数量
techniques: 字符串序列，技术信息
enrichment_url: 字符串类型，扩展信息链接
content_person: 字符串序列，内容人物
has_text: 布尔型，是否包含文本
colors: 字符串序列，颜色信息
geo_location: 字符串类型，地理位置
entropy: 浮点型，熵值
tags_en: 字符串序列，英文标签
image: 图像类型，作品图像
rgb: 字符串类型，RGB值
embedding: 浮点序列，嵌入向量
grey_embedding: 浮点序列，灰度嵌入向量
grey_image: 图像类型，灰度图像
exhibitions: 列表类型，展览信息（包含date_end、date_start、exhibition、venue）
acquisition_date: 字符串类型，获取日期
responsible_department: 字符串类型，负责部门
documentation: 列表类型，文献信息（包含author、notes、shelfmark、title、year_of_publication）
on_display: 字符串类型，是否在展示
current_location_name: 字符串类型，当前位置名称
literary_reference: 字符串序列，文学参考
object_history_note: 字符串序列，物品历史注释
exhibition_venues: 字符串序列，展览场地
smk_exhibitions: 字符串类型，SMK展览
ex_years: 字符串序列，展览年份
exb_canon: 字符串类型，展览标准
prod_diff: 整型，生产差异
prod_notes: 字符串序列，生产注释
prod_year: 整型，生产年份

数据集分割

训练集: 包含1,656个样本，路径为data/train-*

搜集汇总

数据集介绍

构建方式

在艺术计算领域，smk_canon_paintings数据集系统性地整合了丹麦国家美术馆的经典绘画藏品。其构建过程依托专业策展人与计算机视觉专家的协作，通过高分辨率数字化采集技术对馆藏画作进行图像获取，并采用结构化元数据标注体系记录每幅作品的创作年代、作者流派及主题分类等关键信息。

特点

该数据集的核心价值体现在其权威性与多维标注体系。所有画作均来源于国家美术馆权威馆藏，确保了艺术价值的真实性；标注维度不仅包含基础元数据，更延伸至构图特征与色彩分布等视觉属性，为量化艺术研究提供了跨学科交叉视角。其标注一致性通过专家交叉验证机制得以保障。

使用方法

研究者可通过HuggingFace平台直接加载数据集至主流深度学习框架，其标准化图像格式与分层目录结构适配于迁移学习任务。典型应用场景包括绘画风格迁移模型训练、艺术时期分类研究，以及多模态检索系统开发。数据集配套的元数据文件支持基于语义标签的样本筛选，便于定制化实验设计。

背景与挑战

背景概述

艺术计算分析领域在数字人文浪潮推动下，逐渐关注文化遗产的数字化保护与解析。smk_canon_paintings数据集由丹麦国家美术馆（Statens Museum for Kunst）于2010年代后期构建，聚焦西方艺术史中经典绘画作品的视觉特征结构化问题。该数据集通过系统采集馆藏 canonical 画作的高分辨率图像，旨在解决艺术风格迁移、作者归属鉴定和视觉模式挖掘等核心研究议题，为计算艺术学提供了关键数据基础。

当前挑战

该数据集首要挑战在于解决艺术图像细粒度分类中的类内差异性难题，例如同一画家不同时期作品的风格演变或不同画家间的技法模仿。构建过程中需克服绘画作品的光照反射、画布纹理干扰以及修复痕迹造成的视觉噪声，同时需平衡版权限制与学术开放存取间的矛盾，其标注流程更依赖艺术史专家参与，面临主观判断与计算标准化的融合挑战。

常用场景

经典使用场景

在艺术计算与文化遗产数字化领域，smk_canon_paintings数据集为图像分类与风格识别研究提供了重要资源。该数据集收录了丹麦国家美术馆的经典画作，常被用于训练卷积神经网络模型，以实现画作作者、时期及艺术流派的自动化识别，为艺术史研究提供数据支撑。

衍生相关工作

基于该数据集，研究者开发了多种注意力机制与多模态融合模型，如结合文本评论与视觉特征的跨模态分析框架。相关成果发表于ICCV、ECCV等顶级会议，推动了文化遗产计算与视觉感知建模的融合发展。

数据集最近研究