wikiart-captions-81k

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/kaupane/wikiart-captions-81k

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含了81,444个艺术作品的描述数据集，每个作品都有四种不同类型的机器生成描述。这些描述包括直接描述、空间关系描述、反向图像提示描述和基于模板的描述。数据集可用于艺术描述生成、视觉语言模型的训练和评估等。

创建时间：

2025-10-27

原始信息汇总

WikiArt Captions 数据集概述

数据集基本信息

数据集名称: WikiArt Captions Dataset
维护者: kaupane
数据总量: 81,444个样本
数据来源: https://huggingface.co/datasets/huggan/wikiart
标注模型: Qwen3-VL-32B-Instruct
模型提供商: SiliconFlow

数据集结构

数据特征

image: 艺术品图像的PIL图像对象
artist: 艺术家标识符（整数映射到艺术家名称）
genre: 艺术流派分类
style: 艺术风格分类
wikiart-caption: 模板生成的标注，格式为"{style} {genre} by {artist}"
qwen-direct: 使用直接标注提示生成的机器标注
qwen-spatial: 专注于空间关系的机器标注
qwen-reverse: 文本到图像提示格式的机器标注

数据划分

train: 81,444个样本

艺术家分类

包含128位艺术家，包括：

Unknown Artist
boris-kustodiev
camille-pissarro
childe-hassam
claude-monet
edgar-degas
eugene-boudin
gustave-dore
ilya-repin
ivan-aivazovsky
vincent-van-gogh
hieronymus-bosch
leonardo-da-vinci
albrecht-durer
pablo-picasso
rembrandt
salvador-dali
等128位艺术家

艺术流派分类

包含11个流派：

abstract_painting
cityscape
genre_painting
illustration
landscape
nude_painting
portrait
religious_painting
sketch_and_study
still_life
Unknown Genre

艺术风格分类

包含27种风格：

Abstract_Expressionism
Action_painting
Analytical_Cubism
Art_Nouveau
Baroque
Color_Field_Painting
Contemporary_Realism
Cubism
Early_Renaissance
Expressionism
Fauvism
High_Renaissance
Impressionism
Mannerism_Late_Renaissance
Minimalism
Naive_Art_Primitivism
New_Realism
Northern_Renaissance
Pointillism
Pop_Art
Post_Impressionism
Realism
Rococo
Romanticism
Symbolism
Synthetic_Cubism
Ukiyo_e

数据集创建过程

标注生成策略

直接标注: 使用直接标注提示生成描述艺术品核心本质的句子
空间关系: 专注于图像内容空间排列的客观描述
反向图像提示: 创建用于文本到图像模型的完美提示
模板生成: 基于元数据自动生成格式为"{style} {genre} by {artist}"的标注

处理流程

加载完整的huggan/wikiart数据集
使用四种不同提示策略为每个艺术品生成标注
重试失败的标注
将最终数据集上传至Hugging Face

应用场景

艺术标注和描述生成
训练和评估视觉语言模型
在艺术风格上微调文本到图像模型
艺术风格转换研究
关于艺术品的视觉问答
艺术信息检索系统

局限性

所有标注均为机器生成，可能包含不准确信息
部分艺术品在原始WikiArt数据集中可能存在归属错误
标注质量可能存在差异

搜集汇总

数据集介绍

构建方式

在艺术数据集的构建过程中，该数据集以huggan/wikiart为基础，通过先进的多模态大模型Qwen3-VL-32B-Instruct进行系统化扩展。采用四种不同的提示策略生成图像描述：直接描述法聚焦作品核心特征，空间关系法强调元素布局结构，反向提示法模拟文本生成图像需求，模板法则基于元数据自动组合。整个处理流程经过严格的质量控制，对生成失败的案例进行重试机制，最终形成包含81,444件艺术作品的完整标注体系。

特点

该数据集囊括了从文艺复兴到现代艺术的多元风格，涵盖128位艺术大师的创作精髓。每件作品均配备四类专业描述：基于风格流派的标准化标注、注重视觉元素空间关系的解析、适合生成模型训练的反向提示文本，以及突出艺术本质的直接描述。这种多维度的标注体系既保留了艺术史学的专业分类，又融入了计算机视觉的前沿理解，为跨学科研究提供了丰富的语义桥梁。

使用方法

研究者可借助该数据集开展多模态艺术理解任务，包括但不限于视觉语言模型训练、艺术风格迁移实验和图像生成模型优化。在具体应用中，直接描述适用于通用图像理解任务，空间描述服务于构图分析研究，反向提示文本可直接用于文生图模型训练，模板标注则为艺术分类研究提供基准参照。所有数据均以标准化格式存储，支持即插即用的研究流程设计。

背景与挑战

背景概述

在数字人文与计算机视觉交叉领域，艺术图像的多模态理解已成为前沿研究方向。WikiArt Captions 81k数据集由kaupane团队基于huggan/wikiart原始数据集构建，通过SiliconFlow提供的Qwen3-VL-32B模型生成四类机器描述文本。该数据集收录了涵盖从文艺复兴到现代主义的128位艺术家作品，包含81,444幅高质量艺术图像及其对应的风格流派标注，为艺术智能分析提供了结构化数据基础。其创新性地融合了传统艺术史分类与当代视觉语言模型技术，显著推进了艺术图像描述生成、风格迁移等跨模态研究的发展进程。

当前挑战

艺术图像描述任务面临双重挑战：在领域问题层面，需解决艺术风格细粒度分类的模糊性，如印象派与后印象派作品的视觉特征重叠；同时需克服跨时代艺术语言表达的语义鸿沟，例如巴洛克风格的戏剧性构图与极简主义的抽象表达之间存在描述维度差异。在构建过程中，机器标注的可靠性受到原始数据源艺术家归因争议的影响，且多提示策略生成的描述文本需保持艺术专业术语的一致性。此外，空间关系描述要求模型精准捕捉绘画构图中的透视关系与视觉焦点，这对视觉语言模型的场景理解能力提出了更高要求。

常用场景

经典使用场景

在艺术与人工智能交叉研究领域，wikiart-captions-81k数据集为视觉语言模型训练提供了丰富素材。其核心应用体现在艺术作品的自动化描述生成，通过四种不同提示策略生成的文本标注，能够系统训练模型理解绘画作品的视觉元素与艺术特征。该数据集常被用于构建跨模态检索系统，使模型能够根据文本查询精准匹配相应风格或主题的艺术作品。

衍生相关工作

基于该数据集衍生的经典研究包括艺术风格的多模态对齐模型ArtBERT，其通过对比学习实现了绘画作品与艺术评论的语义映射。知名项目ArtVQA构建了视觉问答基准，专门评估模型对绘画历史背景与技法特征的理解深度。近期出现的StylePrompt框架则利用其反向提示标注，开发出具有艺术史认知能力的文本到图像生成系统，在数字人文领域产生广泛影响。

数据集最近研究