wikiart-captions-81k
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/kaupane/wikiart-captions-81k
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含了81,444个艺术作品的描述数据集,每个作品都有四种不同类型的机器生成描述。这些描述包括直接描述、空间关系描述、反向图像提示描述和基于模板的描述。数据集可用于艺术描述生成、视觉语言模型的训练和评估等。
创建时间:
2025-10-27
原始信息汇总
WikiArt Captions 数据集概述
数据集基本信息
- 数据集名称: WikiArt Captions Dataset
- 维护者: kaupane
- 数据总量: 81,444个样本
- 数据来源: https://huggingface.co/datasets/huggan/wikiart
- 标注模型: Qwen3-VL-32B-Instruct
- 模型提供商: SiliconFlow
数据集结构
数据特征
- image: 艺术品图像的PIL图像对象
- artist: 艺术家标识符(整数映射到艺术家名称)
- genre: 艺术流派分类
- style: 艺术风格分类
- wikiart-caption: 模板生成的标注,格式为"{style} {genre} by {artist}"
- qwen-direct: 使用直接标注提示生成的机器标注
- qwen-spatial: 专注于空间关系的机器标注
- qwen-reverse: 文本到图像提示格式的机器标注
数据划分
- train: 81,444个样本
艺术家分类
包含128位艺术家,包括:
- Unknown Artist
- boris-kustodiev
- camille-pissarro
- childe-hassam
- claude-monet
- edgar-degas
- eugene-boudin
- gustave-dore
- ilya-repin
- ivan-aivazovsky
- vincent-van-gogh
- hieronymus-bosch
- leonardo-da-vinci
- albrecht-durer
- pablo-picasso
- rembrandt
- salvador-dali
- 等128位艺术家
艺术流派分类
包含11个流派:
- abstract_painting
- cityscape
- genre_painting
- illustration
- landscape
- nude_painting
- portrait
- religious_painting
- sketch_and_study
- still_life
- Unknown Genre
艺术风格分类
包含27种风格:
- Abstract_Expressionism
- Action_painting
- Analytical_Cubism
- Art_Nouveau
- Baroque
- Color_Field_Painting
- Contemporary_Realism
- Cubism
- Early_Renaissance
- Expressionism
- Fauvism
- High_Renaissance
- Impressionism
- Mannerism_Late_Renaissance
- Minimalism
- Naive_Art_Primitivism
- New_Realism
- Northern_Renaissance
- Pointillism
- Pop_Art
- Post_Impressionism
- Realism
- Rococo
- Romanticism
- Symbolism
- Synthetic_Cubism
- Ukiyo_e
数据集创建过程
标注生成策略
- 直接标注: 使用直接标注提示生成描述艺术品核心本质的句子
- 空间关系: 专注于图像内容空间排列的客观描述
- 反向图像提示: 创建用于文本到图像模型的完美提示
- 模板生成: 基于元数据自动生成格式为"{style} {genre} by {artist}"的标注
处理流程
- 加载完整的huggan/wikiart数据集
- 使用四种不同提示策略为每个艺术品生成标注
- 重试失败的标注
- 将最终数据集上传至Hugging Face
应用场景
- 艺术标注和描述生成
- 训练和评估视觉语言模型
- 在艺术风格上微调文本到图像模型
- 艺术风格转换研究
- 关于艺术品的视觉问答
- 艺术信息检索系统
局限性
- 所有标注均为机器生成,可能包含不准确信息
- 部分艺术品在原始WikiArt数据集中可能存在归属错误
- 标注质量可能存在差异
搜集汇总
数据集介绍

构建方式
在艺术数据集的构建过程中,该数据集以huggan/wikiart为基础,通过先进的多模态大模型Qwen3-VL-32B-Instruct进行系统化扩展。采用四种不同的提示策略生成图像描述:直接描述法聚焦作品核心特征,空间关系法强调元素布局结构,反向提示法模拟文本生成图像需求,模板法则基于元数据自动组合。整个处理流程经过严格的质量控制,对生成失败的案例进行重试机制,最终形成包含81,444件艺术作品的完整标注体系。
特点
该数据集囊括了从文艺复兴到现代艺术的多元风格,涵盖128位艺术大师的创作精髓。每件作品均配备四类专业描述:基于风格流派的标准化标注、注重视觉元素空间关系的解析、适合生成模型训练的反向提示文本,以及突出艺术本质的直接描述。这种多维度的标注体系既保留了艺术史学的专业分类,又融入了计算机视觉的前沿理解,为跨学科研究提供了丰富的语义桥梁。
使用方法
研究者可借助该数据集开展多模态艺术理解任务,包括但不限于视觉语言模型训练、艺术风格迁移实验和图像生成模型优化。在具体应用中,直接描述适用于通用图像理解任务,空间描述服务于构图分析研究,反向提示文本可直接用于文生图模型训练,模板标注则为艺术分类研究提供基准参照。所有数据均以标准化格式存储,支持即插即用的研究流程设计。
背景与挑战
背景概述
在数字人文与计算机视觉交叉领域,艺术图像的多模态理解已成为前沿研究方向。WikiArt Captions 81k数据集由kaupane团队基于huggan/wikiart原始数据集构建,通过SiliconFlow提供的Qwen3-VL-32B模型生成四类机器描述文本。该数据集收录了涵盖从文艺复兴到现代主义的128位艺术家作品,包含81,444幅高质量艺术图像及其对应的风格流派标注,为艺术智能分析提供了结构化数据基础。其创新性地融合了传统艺术史分类与当代视觉语言模型技术,显著推进了艺术图像描述生成、风格迁移等跨模态研究的发展进程。
当前挑战
艺术图像描述任务面临双重挑战:在领域问题层面,需解决艺术风格细粒度分类的模糊性,如印象派与后印象派作品的视觉特征重叠;同时需克服跨时代艺术语言表达的语义鸿沟,例如巴洛克风格的戏剧性构图与极简主义的抽象表达之间存在描述维度差异。在构建过程中,机器标注的可靠性受到原始数据源艺术家归因争议的影响,且多提示策略生成的描述文本需保持艺术专业术语的一致性。此外,空间关系描述要求模型精准捕捉绘画构图中的透视关系与视觉焦点,这对视觉语言模型的场景理解能力提出了更高要求。
常用场景
经典使用场景
在艺术与人工智能交叉研究领域,wikiart-captions-81k数据集为视觉语言模型训练提供了丰富素材。其核心应用体现在艺术作品的自动化描述生成,通过四种不同提示策略生成的文本标注,能够系统训练模型理解绘画作品的视觉元素与艺术特征。该数据集常被用于构建跨模态检索系统,使模型能够根据文本查询精准匹配相应风格或主题的艺术作品。
衍生相关工作
基于该数据集衍生的经典研究包括艺术风格的多模态对齐模型ArtBERT,其通过对比学习实现了绘画作品与艺术评论的语义映射。知名项目ArtVQA构建了视觉问答基准,专门评估模型对绘画历史背景与技法特征的理解深度。近期出现的StylePrompt框架则利用其反向提示标注,开发出具有艺术史认知能力的文本到图像生成系统,在数字人文领域产生广泛影响。
数据集最近研究
最新研究方向
在艺术与人工智能交叉领域,wikiart-captions-81k数据集正推动多模态学习的前沿探索。该数据集通过融合81,444件艺术作品的视觉特征与四种机器生成的文本描述,为艺术风格迁移、跨模态检索等研究提供了丰富资源。当前研究热点集中于利用其多层次标注(艺术家、流派、风格)训练视觉语言模型,以提升对艺术作品的语义理解和生成能力。随着生成式人工智能的兴起,该数据集在文本到图像生成模型的风格控制、艺术评论自动生成等方向展现出重要价值,为数字人文研究提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



