chcaa/wikiart_benchmarking

Name: chcaa/wikiart_benchmarking
Creator: chcaa
Published: 2026-05-08 13:00:54
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/chcaa/wikiart_benchmarking

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含艺术品图像及其元数据。数据集特征包括图像本身、艺术家（列出了114位不同艺术家）、流派（10个类别）、风格（20个类别）以及几个附加字段，如index_old、genre_str、style_str、artist_str和idx_after_filter。数据集分为训练集，包含33,595个样本，总大小约为15.08 GB。该数据集似乎专注于艺术分类，提供了艺术家、流派和风格的详细注释。

The dataset contains images of artworks along with their metadata. The dataset features include the image itself, the artist (with 114 different artists listed), genre (10 categories), style (20 categories), and several additional fields like index_old, genre_str, style_str, artist_str, and idx_after_filter. The dataset is split into a training set with 33,595 examples and a total size of approximately 15.08 GB. The dataset appears to be focused on art classification, with detailed annotations for artists, genres, and styles.

提供机构：

chcaa

搜集汇总

数据集介绍

构建方式

在计算机视觉与数字人文交叉领域，WikiArt 基准数据集（wikiart_benchmarking）应运而生，其构建旨在为艺术图像分析与分类任务提供标准化评估平台。该数据集基于 WikiArt 在线艺术画廊的丰富藏品，系统性地收集了涵盖 114 位艺术家的绘画作品，每幅图像均经过精细的元数据标注。构建过程中，研究者为每幅作品标注了艺术家姓名、绘画流派（如抽象画、城市风光、肖像画等共 10 类）以及艺术风格（如印象派、立体主义、文艺复兴早期等共 20 类），并将原始索引与字符串标签一并保留以保障可追溯性。最终经过数据筛选与清洗，形成了包含 33,595 张训练样本的高质量图像集合，为模型训练提供了充足且多样化的数据基础。

特点

该数据集的核心特色在于其多维度的标注体系与丰富的艺术覆盖度。在艺术家维度上，数据集囊括了从波提切利、达·芬奇等古典大师，到莫奈、梵高等印象派巨匠，再至毕加索、达利等现代艺术先驱的广阔谱系，总计 114 位不同时期与地域的创作者。流派维度提供 10 个精细类别，覆盖从具象到抽象的主要绘画类型；风格维度则划分出 20 种艺术运动与技法流派，为细粒度艺术属性识别提供了标准基准。尤为值得关注的是，所有图像标签均以标准化类标签和原始字符串两种形式呈现，便于研究者灵活调用。这种三重标签体系使得该数据集特别适合艺术家归因、风格迁移评估以及多标签分类等经典计算机视觉任务的性能评测。

使用方法

数据集以 HuggingFace Datasets 库的标准格式发布，用户可通过加载 'wikiart_benchmarking' 配置直接获取训练集。加载后，每条数据包含 PIL 格式的图像对象以及艺术家、流派、风格等预定义类标签，同时保留字符串形式的辅助标签（如 'artist_str'）以便进行自然语言级别的分析。为便于下游任务适配，数据集提供了 'train' 单一数据分片，研究者可直接用于模型训练与交叉验证。建议在应用时对图像进行统一尺寸缩放与归一化处理，并可将类标签转化为 One-hot 或索引形式用于分类器设计。对于跨领域研究，亦可将风格和流派标签组合，构建多任务学习框架，充分挖掘艺术图像中隐含的创作规律与视觉语法。

背景与挑战

背景概述

WikiArt Benchmarking数据集是一个专为艺术绘画分析与识别任务而构建的高质量基准数据集，其核心研究问题聚焦于艺术作品的艺术家归属、风格分类与题材划分。该数据集由研究者从WikiArt在线画廊整理并标注而成，收录了自文艺复兴至现代主义时期跨越多个世纪的绘画作品，涵盖113位艺术家的作品，并标注了11种题材与21种风格标签。作为连接计算机视觉与艺术史研究的桥梁，该数据集为算法在细粒度视觉识别、跨域特征提取以及艺术风格演化分析等领域提供了标准化的评估平台。它在推动深度学习模型对艺术作品的语义理解方面具有重要影响力，促进了艺术数字化与智能鉴赏技术的发展。

当前挑战

该数据集所面临的挑战首先在于艺术风格与题材的高度主观性和模糊性，不同画作可能在同一风格下呈现迥异的视觉特征，而同一艺术家不同时期的创作风格也可能发生显著变化，这为模型识别带来了极大的难度。此外，构建过程中遇到的挑战包括：原始图像来源于网络，存在分辨率不一、色彩失真及水印干扰等问题；部分画作的艺术家归属或风格标签在艺术史学界存在争议，导致标注的可信度需精心甄别；同时，数据集的类别分布不均衡，某些艺术家或风格的作品数量极为稀少，加剧了模型泛化的难度。

常用场景

经典使用场景

WikiArt Benchmarking数据集汇聚了跨越多个世纪、涵盖113位杰出艺术家的绘画作品，并精细标注了风格、流派与作者信息。该数据集最经典的使用场景在于构建和评估视觉艺术领域的分类与识别模型。研究者可借此训练卷积神经网络或视觉Transformer，完成从图像到艺术家身份、艺术风格或绘画流派的精准映射，从而为计算美学与数字人文研究提供标准化基准。

解决学术问题

该数据集有效解决了艺术图像分析中标注样本匮乏与类别不均衡的难题。通过提供涵盖27种风格与10种流派的丰富标注，它助力学术界探索细粒度视觉特征提取、域适应学习以及多标签分类等前沿课题。其意义不仅在于推动计算机视觉算法在艺术领域的落地，更在于为艺术史研究引入量化分析手段，促进跨学科对话。

衍生相关工作

该数据集催生了多项相关工作，包括面向艺术图像的对比学习框架、风格迁移质量评估基准以及艺术家身份验证模型。例如，基于该数据集的研究提出了跨风格特征解耦方法与注意力引导的流派识别网络，进一步拓展了计算机视觉在艺术创作辅助与文化遗产数字化保护中的应用边界，形成了活跃的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集