metmuseum/openaccess|艺术数据集|博物馆数据数据集

hugging_face2024-06-28 更新2024-06-29 收录

艺术

博物馆数据

下载链接：

https://hf-mirror.com/datasets/metmuseum/openaccess

下载链接

链接失效反馈

资源简介：

大都会艺术博物馆开放访问数据集包含了超过470,000件艺术品的详细信息，涵盖了艺术品的名称、艺术家信息、创作日期、分类、地理位置等多个方面。数据集以CSV格式提供，并且包含了艺术品的图像链接。数据集的使用遵循Creative Commons Zero (CC0)许可，允许无限制的商业和非商业使用。此外，README还提供了如何更新或重新生成CSV文件和图像的详细步骤，以及如何使用img2dataset工具处理数据的说明。

The Metropolitan Museum of Art Open Access dataset contains detailed information on more than 470,000 artworks, covering aspects such as the artworks name, artist information, creation date, classification, and geographical location. The dataset is provided in CSV format and includes image links for the artworks. The use of the dataset is governed by the Creative Commons Zero (CC0) license, allowing unrestricted commercial and noncommercial use. Additionally, the README provides detailed steps on how to update or recreate the CSV files and images, as well as instructions on how to process the data using the img2dataset tool.

提供机构：

metmuseum

原始信息汇总

数据集概述

数据集名称

The Metropolitan Museum of Art - Open Access CSV

数据集语言

英语 (en)

数据集特征

Object Name: 字符串
jpg: 图像
Title: 字符串
Artist Display Name: 字符串
Object Date: 字符串
Object ID: 整数 (int32)
Is Highlight: 布尔值
Is Timeline Work: 布尔值
Is Public Domain: 布尔值
Gallery Number: 字符串
Department: 字符串
AccessionYear: 字符串
Culture: 字符串
Period: 字符串
Dynasty: 字符串
Reign: 字符串
Portfolio: 字符串
Constituent ID: 字符串
Artist Role: 字符串
Artist Prefix: 字符串
Artist Display Bio: 字符串
Artist Suffix: 字符串
Artist Alpha Sort: 字符串
Artist Nationality: 字符串
Artist Begin Date: 字符串
Artist End Date: 字符串
Artist Gender: 字符串
Artist ULAN URL: 字符串
Artist Wikidata URL: 字符串
Object Begin Date: 整数 (int64)
Object End Date: 整数 (int64)
Medium: 字符串
Dimensions: 字符串
Credit Line: 字符串
Geography Type: 字符串
City: 字符串
State: 字符串
County: 字符串
Country: 字符串
Region: 字符串
Subregion: 字符串
Locale: 字符串
Locus: 字符串
Excavation: 字符串
River: 字符串
Classification: 字符串
Rights and Reproduction: 字符串
Link Resource: 字符串
Object Wikidata URL: 字符串
Metadata Date: 字符串
Repository: 字符串
Tags: 字符串
Tags AAT URL: 字符串
Tags Wikidata URL: 字符串
url: 字符串
key: 字符串
status: 字符串
error_message: 字符串
width: 整数 (int32)
height: 整数 (int32)
original_width: 整数 (int32)
original_height: 整数 (int32)
exif: 字符串
sha256: 字符串

数据集更新

数据集计划定期更新，建议用户定期更新以获取最新信息。

数据集使用

数据集提供“原样”，使用风险自负。
不接受拉取请求，如发现错误或有额外信息，请通过电子邮件联系。
使用数据集时，请考虑引用或注明来源。
不得误导他人或错误表示数据集及其来源。
如对数据集进行修改，需明确说明信息已被修改。

AI搜集汇总

数据集介绍

构建方式

该数据集由大都会艺术博物馆（The Metropolitan Museum of Art）提供，涵盖了超过470,000件艺术品的详细信息。数据集的构建基于博物馆内部数据库，通过自动化和手动处理相结合的方式生成。具体步骤包括从博物馆的GitHub仓库下载CSV文件，使用Python脚本进行数据清洗和图像添加，最终通过img2dataset工具将数据转换为适合机器学习处理的格式。

特点

该数据集具有丰富的特征，包括艺术品的基本信息（如名称、标题、创作日期）、艺术家信息（如姓名、国籍、生卒年份）、以及艺术品的图像数据。此外，数据集还包含了艺术品的版权状态、展览信息和地理位置等详细信息。所有数据均采用CC0 1.0公共领域许可，允许无限制的商业和非商业使用。

使用方法

使用该数据集时，用户可以通过HuggingFace的客户端库直接加载数据，进行数据分析、机器学习模型训练等操作。数据集中的图像数据可通过url列访问，支持多种图像处理任务。用户还可以根据需要对数据进行筛选和处理，例如过滤公共领域作品或添加高分辨率图像。为确保数据的准确性和及时性，建议用户定期更新数据集。

背景与挑战

背景概述

metmuseum/openaccess数据集由纽约大都会艺术博物馆（The Metropolitan Museum of Art）提供，旨在通过开放访问的方式，使全球用户能够无限制地使用其收藏的超过47万件艺术品的详细信息。该数据集的创建源于博物馆自1870年成立以来，一直致力于不仅作为珍稀艺术品的宝库，更希望通过艺术品的展示和研究，揭示跨越时间和文化的思想与联系。通过采用Creative Commons Zero（CC0）许可，博物馆放弃了所有版权及相关权利，使得这些数据可以在任何媒体中自由使用，无需许可或费用。这一举措极大地促进了艺术史研究、文化交流以及数字艺术的应用，对相关领域产生了深远的影响。

当前挑战

尽管metmuseum/openaccess数据集提供了丰富的艺术品信息，但其构建和维护过程中仍面临诸多挑战。首先，数据集的完整性问题，由于博物馆藏品的文档工作是一个持续进行的过程，部分数据可能存在不完整或错误的情况。其次，图像数据的处理和存储，尤其是高分辨率图像的获取和压缩，对计算资源和存储空间提出了较高要求。此外，数据集的更新频率和准确性也是一个持续的挑战，需要定期更新以确保用户获取的信息是最新的。最后，数据集的使用规范和版权问题，尽管采用了CC0许可，但在实际应用中仍需注意避免误导和滥用，确保数据的真实性和来源的透明性。

常用场景

经典使用场景

在大都会艺术博物馆开放访问数据集中，经典的使用场景包括艺术品的分类与识别、艺术史研究的时间线构建以及跨文化艺术品的比较分析。通过该数据集，研究者可以深入探索不同艺术品的创作背景、艺术家信息及其历史地位，从而为艺术史研究提供丰富的数据支持。

实际应用

在实际应用中，大都会艺术博物馆开放访问数据集被广泛用于博物馆展览策划、艺术品数字化管理以及公共教育项目。例如，博物馆可以利用该数据集进行虚拟展览的构建，教育机构则可以开发基于艺术史的教学资源，从而提升公众对艺术品的理解和欣赏。

衍生相关工作

基于该数据集，衍生了一系列经典工作，包括艺术品图像识别算法的研究、艺术风格迁移技术的开发以及跨文化艺术品的深度学习模型构建。这些工作不仅推动了计算机视觉和人工智能在艺术领域的应用，也为艺术史研究提供了新的工具和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录