wikiart_benchmarking
收藏Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/chcaa/wikiart_benchmarking
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含大量画作图像及其元数据的艺术数据集。每幅画作都标注了艺术家、流派和风格信息。数据集包含33,595个训练样本,总大小约为15.08GB。艺术家标签涵盖从Boris Kustodiev到Thomas Gainsborough等113位不同艺术家,流派标签包括抽象画、城市景观、人物画等10个类别,风格标签则包含抽象表现主义、新艺术运动、巴洛克等20种艺术风格。数据集还包含一些辅助字段如原始索引、经过过滤后的索引以及各分类标签的字符串表示。该数据集适用于艺术风格识别、艺术家分类、计算机视觉在艺术领域的应用等任务。
提供机构:
Center for Humanities Computing Aarhus
创建时间:
2026-05-08
原始信息汇总
好的,这是为您整理的数据集详情概述:
数据集概述:WikiArt Benchmarking
基本信息
- 数据集名称: WikiArt Benchmarking
- 数据集地址: https://huggingface.co/datasets/chcaa/wikiart_benchmarking
- 总数据大小: 约 15.08 GB
- 下载大小: 约 15.08 GB
- 数据集配置:
default
数据划分
该数据集仅包含一个划分:
- 训练集 (train): 33,595 个样本
特征字段
数据集包含以下特征字段:
| 字段名 | 数据类型 | 说明 |
|---|---|---|
| image | image |
图片数据 |
| artist | class_label |
画家姓名 (共 114 位画家,详情见下文) |
| genre | class_label |
绘画流派 (共 10 个类别) |
| style | class_label |
绘画风格 (共 20 个类别) |
| index_old | int64 |
旧版索引 |
| genre_str | string |
流派字符串表示 |
| style_str | string |
风格字符串表示 |
| artist_str | string |
画家字符串表示 |
| idx_after_filter | int64 |
过滤后的索引 |
分类标签详情
画家 (artist) 标签 (共 114 位):
包含从 boris-kustodiev 到 thomas-gainsborough 的 114 位世界知名画家,如克劳德·莫奈、文森特·梵高、巴勃罗·毕加索、伦勃朗、萨尔瓦多·达利等。
流派 (genre) 标签 (共 10 类):
abstract_painting(抽象画)cityscape(城市风景)genre_painting(风俗画)illustration(插画)landscape(风景画)nude_painting(裸体画)portrait(肖像画)religious_painting(宗教画)sketch_and_study(素描与研究)still_life(静物画)
风格 (style) 标签 (共 20 类):
Abstract_Expressionism(抽象表现主义)Art_Nouveau(新艺术运动)Baroque(巴洛克)Color_Field_Painting(色域绘画)Cubism(立体主义)Early_Renaissance(早期文艺复兴)Expressionism(表现主义)Fauvism(野兽派)High_Renaissance(文艺复兴全盛期)Impressionism(印象派)Mannerism_Late_Renaissance(风格主义/晚期文艺复兴)Naive_Art_Primitivism(原始主义/稚拙艺术)Northern_Renaissance(北方文艺复兴)Pointillism(点彩派)Post_Impressionism(后印象派)Realism(现实主义)Rococo(洛可可)Romanticism(浪漫主义)Symbolism(象征主义)Synthetic_Cubism(综合立体主义)
搜集汇总
数据集介绍

构建方式
WikiArt Benchmarking数据集源自著名的WikiArt艺术百科全书,汇聚了跨越艺术史长河的经典画作。在构建过程中,严格筛选了113位具有广泛影响力的艺术家,覆盖抽象表现主义、巴洛克、印象派等27种艺术风格,以及从抽象绘画到宗教画、肖像画等10类绘画题材。每一幅图像均标注了原始索引、艺术家姓名、风格和题材的文本描述,并经过一致性过滤处理,最终保留了33,595幅高质量画作,确保样本的多样性和标注的准确性。
特点
该数据集的核心特点在于其深度融合了艺术家、风格与题材三个维度的细粒度分类标签,为艺术领域的多模态研究提供了丰富且结构化的数据支持。不仅包含图像信息,还预设了经过清洗的索引字段,便于研究者进行基准测试和跨域分析。其覆盖面广,从文艺复兴大师达·芬奇到现代巨匠毕加索,集合了东西方艺术流派,充分展现了艺术风格的演变与多样性。
使用方法
使用时,可直接通过HuggingFace Datasets库加载训练拆分,图像将自动以PIL格式读取,无需额外处理。研究者可将艺术家、风格或题材作为分类目标,构建图像分类或度量学习任务。数据集的标注信息以文本和类标签双重形式提供,便于灵活设计损失函数与评估指标。此外,其内置的过滤索引有助于快速构建特定子集,或进行跨风格、跨艺术家的迁移学习实验。
背景与挑战
背景概述
WikiArt Benchmarking数据集是一个专注于艺术图像分类的基准数据集,由研究机构基于著名的WikiArt艺术数据库构建而成。该数据集旨在系统性地评估和推动计算机视觉在绘画领域的研究,涵盖从文艺复兴到现代抽象艺术的多元化艺术风格。其核心研究问题包括绘画的风格、流派和创作者识别,为跨越艺术史与人工智能的交叉学科提供了标准化的评测平台。数据集中包含了114位著名艺术家、27种艺术风格及10种绘画流派,为相关领域的研究者提供了丰富的标注信息。自发布以来,该数据集已成为艺术图像分析和模式识别领域的重要资源,极大地促进了深度学习技术在艺术鉴赏、自动标注与数字人文研究中的应用。
当前挑战
在领域问题层面,该数据集面临的主要挑战是艺术图像的多标签与细粒度分类难题。由于同一幅画可能同时包含多种风格和流派特征,如何准确识别其多重属性并处理艺术风格的模糊边界,成为算法必须突破的瓶颈。在构建过程中,挑战同样显著:数据来源于庞大的在线艺术图像库,需要解决版权归属、图像质量参差不齐、标签噪声以及不同流派的类别不平衡等问题。此外,艺术图像的视觉特征高度依赖色彩、构图与笔触等主观元素,这使得特征的提取与标准化标注变得异常复杂。这些因素共同构成了WikiArt Benchmarking数据集在推动艺术智能分析进程中的核心技术壁垒。
常用场景
经典使用场景
WikiArt Benchmarking数据集汇聚了横跨数百年艺术史的绘画珍品,涵盖从早期文艺复兴到抽象表现主义等多元风格,以及风景、肖像、宗教画等丰富题材。这一数据集最经典的使用场景在于训练和评估计算机视觉模型在艺术图像分类与识别任务上的表现,特别是针对艺术家身份、艺术风格和绘画体裁的细粒度预测。研究者可借助该数据集构建鲁棒的图像特征提取器,探索艺术领域内视觉特征的独特性与跨领域迁移能力。
实际应用
在实际应用层面,WikiArt Benchmarking可赋能数字博物馆与文化遗产机构的智能管理,实现海量艺术品的自动分类、风格溯源与艺术家鉴定。此外,它支持开发面向公众的互动式艺术教育工具,例如基于图像相似度的风格探索应用,或帮助艺术创作者分析其创作风格的演变轨迹。在拍卖与鉴伪领域,该数据集训练出的模型可作为辅助工具,协助专家快速筛选存疑作品,提升艺术市场交易的透明度与效率。
衍生相关工作
该数据集的发布催生了多项经典工作,包括基于卷积神经网络的艺术风格迁移模型优化、画家身份识别的对比学习框架,以及融合语言模型的艺术作品描述生成系统。后续研究者还利用该数据集的标注体系,提出了跨域知识蒸馏方法以在有限标注下提升分类性能,并构建了艺术图像与美学评价之间的映射模型。这些工作不仅深化了视觉特征在艺术场景下的理解,也为计算美学与创意AI的交叉研究开辟了新路径。
以上内容由遇见数据集搜集并总结生成



