five

metmuseum/openaccess|艺术数据集|博物馆数据数据集

收藏
hugging_face2024-06-28 更新2024-06-29 收录
艺术
博物馆数据
下载链接:
https://hf-mirror.com/datasets/metmuseum/openaccess
下载链接
链接失效反馈
资源简介:
大都会艺术博物馆开放访问数据集包含了超过470,000件艺术品的详细信息,涵盖了艺术品的名称、艺术家信息、创作日期、分类、地理位置等多个方面。数据集以CSV格式提供,并且包含了艺术品的图像链接。数据集的使用遵循Creative Commons Zero (CC0)许可,允许无限制的商业和非商业使用。此外,README还提供了如何更新或重新生成CSV文件和图像的详细步骤,以及如何使用img2dataset工具处理数据的说明。

The Metropolitan Museum of Art Open Access dataset contains detailed information on more than 470,000 artworks, covering aspects such as the artworks name, artist information, creation date, classification, and geographical location. The dataset is provided in CSV format and includes image links for the artworks. The use of the dataset is governed by the Creative Commons Zero (CC0) license, allowing unrestricted commercial and noncommercial use. Additionally, the README provides detailed steps on how to update or recreate the CSV files and images, as well as instructions on how to process the data using the img2dataset tool.
提供机构:
metmuseum
原始信息汇总

数据集概述

数据集名称

The Metropolitan Museum of Art - Open Access CSV

数据集语言

  • 英语 (en)

数据集特征

  • Object Name: 字符串
  • jpg: 图像
  • Title: 字符串
  • Artist Display Name: 字符串
  • Object Date: 字符串
  • Object ID: 整数 (int32)
  • Is Highlight: 布尔值
  • Is Timeline Work: 布尔值
  • Is Public Domain: 布尔值
  • Gallery Number: 字符串
  • Department: 字符串
  • AccessionYear: 字符串
  • Culture: 字符串
  • Period: 字符串
  • Dynasty: 字符串
  • Reign: 字符串
  • Portfolio: 字符串
  • Constituent ID: 字符串
  • Artist Role: 字符串
  • Artist Prefix: 字符串
  • Artist Display Bio: 字符串
  • Artist Suffix: 字符串
  • Artist Alpha Sort: 字符串
  • Artist Nationality: 字符串
  • Artist Begin Date: 字符串
  • Artist End Date: 字符串
  • Artist Gender: 字符串
  • Artist ULAN URL: 字符串
  • Artist Wikidata URL: 字符串
  • Object Begin Date: 整数 (int64)
  • Object End Date: 整数 (int64)
  • Medium: 字符串
  • Dimensions: 字符串
  • Credit Line: 字符串
  • Geography Type: 字符串
  • City: 字符串
  • State: 字符串
  • County: 字符串
  • Country: 字符串
  • Region: 字符串
  • Subregion: 字符串
  • Locale: 字符串
  • Locus: 字符串
  • Excavation: 字符串
  • River: 字符串
  • Classification: 字符串
  • Rights and Reproduction: 字符串
  • Link Resource: 字符串
  • Object Wikidata URL: 字符串
  • Metadata Date: 字符串
  • Repository: 字符串
  • Tags: 字符串
  • Tags AAT URL: 字符串
  • Tags Wikidata URL: 字符串
  • url: 字符串
  • key: 字符串
  • status: 字符串
  • error_message: 字符串
  • width: 整数 (int32)
  • height: 整数 (int32)
  • original_width: 整数 (int32)
  • original_height: 整数 (int32)
  • exif: 字符串
  • sha256: 字符串

数据集更新

  • 数据集计划定期更新,建议用户定期更新以获取最新信息。

数据集使用

  • 数据集提供“原样”,使用风险自负。
  • 不接受拉取请求,如发现错误或有额外信息,请通过电子邮件联系。
  • 使用数据集时,请考虑引用或注明来源。
  • 不得误导他人或错误表示数据集及其来源。
  • 如对数据集进行修改,需明确说明信息已被修改。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由大都会艺术博物馆(The Metropolitan Museum of Art)提供,涵盖了超过470,000件艺术品的详细信息。数据集的构建基于博物馆内部数据库,通过自动化和手动处理相结合的方式生成。具体步骤包括从博物馆的GitHub仓库下载CSV文件,使用Python脚本进行数据清洗和图像添加,最终通过img2dataset工具将数据转换为适合机器学习处理的格式。
特点
该数据集具有丰富的特征,包括艺术品的基本信息(如名称、标题、创作日期)、艺术家信息(如姓名、国籍、生卒年份)、以及艺术品的图像数据。此外,数据集还包含了艺术品的版权状态、展览信息和地理位置等详细信息。所有数据均采用CC0 1.0公共领域许可,允许无限制的商业和非商业使用。
使用方法
使用该数据集时,用户可以通过HuggingFace的客户端库直接加载数据,进行数据分析、机器学习模型训练等操作。数据集中的图像数据可通过url列访问,支持多种图像处理任务。用户还可以根据需要对数据进行筛选和处理,例如过滤公共领域作品或添加高分辨率图像。为确保数据的准确性和及时性,建议用户定期更新数据集。
背景与挑战
背景概述
metmuseum/openaccess数据集由纽约大都会艺术博物馆(The Metropolitan Museum of Art)提供,旨在通过开放访问的方式,使全球用户能够无限制地使用其收藏的超过47万件艺术品的详细信息。该数据集的创建源于博物馆自1870年成立以来,一直致力于不仅作为珍稀艺术品的宝库,更希望通过艺术品的展示和研究,揭示跨越时间和文化的思想与联系。通过采用Creative Commons Zero(CC0)许可,博物馆放弃了所有版权及相关权利,使得这些数据可以在任何媒体中自由使用,无需许可或费用。这一举措极大地促进了艺术史研究、文化交流以及数字艺术的应用,对相关领域产生了深远的影响。
当前挑战
尽管metmuseum/openaccess数据集提供了丰富的艺术品信息,但其构建和维护过程中仍面临诸多挑战。首先,数据集的完整性问题,由于博物馆藏品的文档工作是一个持续进行的过程,部分数据可能存在不完整或错误的情况。其次,图像数据的处理和存储,尤其是高分辨率图像的获取和压缩,对计算资源和存储空间提出了较高要求。此外,数据集的更新频率和准确性也是一个持续的挑战,需要定期更新以确保用户获取的信息是最新的。最后,数据集的使用规范和版权问题,尽管采用了CC0许可,但在实际应用中仍需注意避免误导和滥用,确保数据的真实性和来源的透明性。
常用场景
经典使用场景
在大都会艺术博物馆开放访问数据集中,经典的使用场景包括艺术品的分类与识别、艺术史研究的时间线构建以及跨文化艺术品的比较分析。通过该数据集,研究者可以深入探索不同艺术品的创作背景、艺术家信息及其历史地位,从而为艺术史研究提供丰富的数据支持。
实际应用
在实际应用中,大都会艺术博物馆开放访问数据集被广泛用于博物馆展览策划、艺术品数字化管理以及公共教育项目。例如,博物馆可以利用该数据集进行虚拟展览的构建,教育机构则可以开发基于艺术史的教学资源,从而提升公众对艺术品的理解和欣赏。
衍生相关工作
基于该数据集,衍生了一系列经典工作,包括艺术品图像识别算法的研究、艺术风格迁移技术的开发以及跨文化艺术品的深度学习模型构建。这些工作不仅推动了计算机视觉和人工智能在艺术领域的应用,也为艺术史研究提供了新的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录