WikiArt|艺术收藏数据集|图像识别数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

艺术收藏

图像识别

下载链接：

https://opendatalab.org.cn/OpenDataLab/WikiArt

下载链接

链接失效反馈

资源简介：

为了收集我们的美术作品集，我们使用了公开的 “维基艺术绘画” 数据集4 ；据我们所知，这是最大的数字化艺术品在线公开收藏。这个收藏有从十五个世纪到当代艺术家的1,119艺术家的81,449精工画的图像。这些绘画来自27种不同的风格 (抽象，拜占庭，巴洛克等) 和 45种不同的流派 (室内、风景等)先前的作品 [26,9] 使用了不同的资源，并制作了较小的收藏，在风格，流派方面的可变性有限和艺术家。[4] 的工作在数据收集程序方面最接近我们的工作，但是他们收集的图像数量是我们的一半。

提供机构：

OpenDataLab

创建时间：

2022-06-07

AI搜集汇总

数据集介绍

构建方式

WikiArt数据集的构建基于对维基艺术网站上大量艺术作品的系统性收集与整理。该数据集涵盖了从古典到现代的多种艺术风格，包括但不限于印象派、抽象表现主义和超现实主义。每件艺术作品均附有详细的元数据，如艺术家姓名、创作年份、风格标签和图像分辨率等。通过自动化爬虫技术，结合人工审核，确保数据的准确性和完整性。

特点

WikiArt数据集以其丰富的艺术风格和高质量的图像著称。该数据集不仅包含了超过80,000幅艺术作品，还提供了多维度的元数据，便于进行深入的艺术分析和研究。此外，数据集的多样性使得其在艺术风格分类、图像生成和美学评价等多个领域具有广泛的应用潜力。

使用方法

使用WikiArt数据集时，研究者可以利用其丰富的图像和元数据进行多种类型的分析。例如，通过机器学习算法对艺术风格进行分类，或利用生成对抗网络（GAN）生成新的艺术作品。此外，该数据集还可用于美学评价模型的训练，通过分析艺术作品的视觉特征来预测观众的审美偏好。

背景与挑战

背景概述

WikiArt数据集，由WikiArt.org网站提供，是一个包含大量艺术作品图像及其相关元数据的综合性数据库。该数据集的创建旨在为艺术史研究、计算机视觉和机器学习领域提供丰富的视觉素材。其核心研究问题包括艺术作品的自动分类、风格识别和年代推断。自2016年发布以来，WikiArt已成为艺术领域与计算机科学交叉研究的重要资源，极大地推动了艺术图像分析技术的发展。

当前挑战

尽管WikiArt数据集在艺术与计算机科学的结合中展现了巨大潜力，但其构建与应用过程中仍面临诸多挑战。首先，艺术作品的多样性和复杂性使得图像分类和风格识别任务异常困难。其次，数据集中的图像质量参差不齐，部分作品因年代久远或保存不当而存在模糊或损坏问题，这增加了图像处理的复杂性。此外，艺术作品的版权问题也是一大挑战，确保数据集的合法使用和版权保护是当前亟需解决的问题。

发展历史

创建时间与更新

WikiArt数据集创建于2016年，由MIT计算机科学与人工智能实验室（CSAIL）与WikiArt.org合作开发。该数据集自创建以来，经历了多次更新，最近一次重大更新发生在2021年，以确保数据质量和多样性。

重要里程碑

WikiArt数据集的一个重要里程碑是其在2017年首次公开发布，迅速成为艺术风格识别和图像生成领域的重要资源。2018年，该数据集被用于Google的Magenta项目，进一步推动了艺术与人工智能的结合研究。2020年，WikiArt与多个国际研究机构合作，扩展了其数据集的规模和多样性，涵盖了更多艺术流派和时期的作品。

当前发展情况

当前，WikiArt数据集已成为艺术与计算机视觉交叉领域的基础资源，广泛应用于风格迁移、艺术生成模型和艺术历史研究。其丰富的图像数据和详细的元数据为研究人员提供了宝贵的资源，促进了艺术与技术的深度融合。此外，WikiArt数据集的开放性和可扩展性，使其在学术界和工业界均获得了广泛认可，为未来的艺术创新和研究奠定了坚实基础。

发展历程

WikiArt数据集首次公开发布，旨在提供一个包含多种艺术风格和时期的高质量艺术作品图像库。
2012年
WikiArt数据集被广泛应用于计算机视觉和艺术史研究领域，特别是在风格识别和艺术作品分类任务中。
2015年
WikiArt数据集的扩展版本发布，增加了更多的艺术作品和详细元数据，进一步丰富了数据集的内容和多样性。
2017年
WikiArt数据集在深度学习和生成对抗网络（GAN）的研究中得到应用，推动了艺术风格迁移和生成艺术作品的技术发展。
2019年
WikiArt数据集的最新版本发布，包含了更多的艺术作品和更精细的标签系统，为艺术研究和人工智能技术的结合提供了更强大的数据支持。
2021年

常用场景

经典使用场景

在艺术与计算机视觉的交叉领域，WikiArt数据集被广泛用于风格迁移、图像生成和艺术风格分类等经典任务。该数据集包含了来自不同艺术流派和时期的数千幅艺术作品，为研究人员提供了丰富的视觉素材。通过分析这些作品的色彩、构图和风格特征，研究者能够开发出能够自动生成或转换图像风格的算法，从而推动了计算机视觉技术在艺术创作中的应用。

实际应用

在实际应用中，WikiArt数据集被用于开发艺术创作辅助工具和个性化艺术推荐系统。例如，艺术家和设计师可以利用基于该数据集的算法，自动生成具有特定风格的艺术作品，从而激发创作灵感。此外，艺术教育机构和博物馆也可以利用这些技术，为观众提供个性化的艺术体验和教育内容。通过将艺术与技术相结合，WikiArt数据集在提升艺术创作效率和用户体验方面展现了巨大的潜力。

衍生相关工作

基于WikiArt数据集，研究者们开展了一系列相关工作，推动了艺术与计算机视觉领域的交叉研究。例如，一些研究团队利用该数据集开发了能够自动识别和分类艺术风格的深度学习模型，这些模型在艺术鉴定和文化遗产保护中得到了应用。此外，还有研究者基于WikiArt数据集提出了新的图像生成算法，这些算法不仅能够生成逼真的艺术作品，还能够模拟不同艺术家的创作风格，为艺术创作和视觉设计提供了新的工具和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

MeSH

MeSH（医学主题词表）是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念，用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息，广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

腾讯词向量（Tencent AI Lab Embedding Corpus for Chinese Words and Phrases）

这些语料库的最新版本提供了100维度和200维度的向量表示形式，也就是嵌入，适用于中文和英文。具体来说，有超过1200万个中文单词和短语以及650万个英语单词和短语，它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义，可以广泛应用于许多下游任务 (例如，命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录

Wikipedia Dump

Wikipedia Dump 数据集包含了维基百科的完整内容，包括文章、页面、分类、模板等。数据以XML格式存储，每月更新一次。

dumps.wikimedia.org 收录