five

MAMe数据集

收藏
arXiv2021-05-20 更新2024-06-21 收录
下载链接:
https://hpai.bsc.es/MAMe-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MAMe数据集是由巴塞罗那超级计算中心创建的一个专注于艺术品媒介识别的高分辨率和可变形状图像数据集。该数据集包含来自三个不同博物馆的数千件艺术品,共计37,407张高分辨率图像,旨在研究高分辨率和可变形状图像属性对图像分类任务的影响。数据集中的分类任务涉及由艺术专家监督的29种媒介(如材料和技术)的区分。MAMe数据集的创建过程涉及从博物馆获取数据,通过专家进行标签映射,并确保数据集的平衡性和高分辨率特性。该数据集的应用领域主要集中在艺术品的自动化分类和识别,以及推动高分辨率和可变形状图像处理技术的发展。

The MAMe dataset is a high-resolution, arbitrarily-shaped image dataset dedicated to artwork medium recognition, developed by the Barcelona Supercomputing Center. It comprises 37,407 high-resolution images of thousands of artworks sourced from three distinct museums, and is designed to study the effects of high-resolution and arbitrarily-shaped image properties on image classification tasks. The classification task included in the MAMe dataset entails differentiating 29 medium categories (e.g., materials and techniques) under the supervision of professional art experts. The creation process of the MAMe dataset involves acquiring data from museums, conducting label mapping with expert guidance, and ensuring the dataset's balance and high-resolution attributes. The primary application scenarios of the MAMe dataset cover automated classification and recognition of artworks, as well as promoting the advancement of high-resolution and arbitrarily-shaped image processing technologies.
提供机构:
巴塞罗那超级计算中心
创建时间:
2020-07-28
搜集汇总
数据集介绍
main_image_url
构建方式
在数字文化遗产保护领域,高分辨率与可变形状图像的特性日益受到关注。MAMe数据集的构建依托于三大博物馆(纽约大都会艺术博物馆、洛杉矶郡艺术博物馆、克利夫兰艺术博物馆)公开的高质量数字藏品,这些图像均采用CC0许可协议,确保了数据的可自由使用。研究团队通过定制化的网络爬虫系统,自动化采集了约29万幅原始图像,并经由艺术领域专家进行精细筛选与标注,最终形成了包含29种艺术品媒介类别、总计37,407幅图像的标准化数据集。在构建过程中,专家依据视觉一致性、术语连贯性与分类学逻辑,对博物馆原有的异构元数据进行语义映射与类别融合,同时严格遵循样本平衡性、分辨率阈值(最小轴不低于500像素)及跨博物馆分布均衡等原则,确保了数据集的科学性与代表性。
特点
MAMe数据集在图像分类领域呈现出鲜明的独特性。其核心特征在于同时具备高分辨率与可变形状的双重属性:图像平均分辨率约10.3兆像素,远超主流数据集的规模,且宽高比分布广泛,涵盖了从肖像到风景的多种构图形态。数据集的类别体系基于艺术品媒介(如油画、青铜、陶瓷等)构建,各类别内部存在显著的视觉差异,要求模型同时关注细节纹理与整体结构。与ImageNet等传统数据集相比,MAMe更侧重于细粒度分类任务,其图像内容依赖高分辨率信息以辨识媒介的物理特性(如画布织纹、金属腐蚀痕迹),而可变形状特性则避免了统一缩放导致的艺术品比例失真,为研究图像形变对分类性能的影响提供了天然实验场。
使用方法
为充分发挥MAMe数据集在计算机视觉研究中的价值,使用者可遵循多阶段流程展开工作。首先,需从官方发布平台获取包含图像文件及元数据的完整资源,元数据涵盖文件名、媒介标签、博物馆来源、图像尺寸及数据划分(训练/验证/测试集)等关键信息。研究人员可根据实验目标,选择不同的数据预处理策略:例如,为探究高分辨率的影响,可对比固定形状(如600×600像素)与可变形状但固定像素数(如36万像素)的输入格式;为评估模型对形状变化的适应性,则需设计支持可变宽高比的网络结构或预处理流水线。数据集已提供基于VGG、ResNet等经典架构的基线模型与实验代码,用户可在此基础上进行模型优化、假设验证(如高分辨率信息增益、形状不变性学习等),并结合层间相关性传播等可解释性方法,分析模型决策与艺术专家知识的一致性,从而推动面向高分辨率可变形状图像的分类算法创新。
背景与挑战
背景概述
MAMe数据集由巴塞罗那超级计算中心与巴塞罗那大学文化遗产保护团队于2021年联合创建,旨在探索高分辨率与可变形状图像属性在视觉任务中的关键作用。该数据集聚焦于艺术品媒介分类,涵盖来自纽约大都会艺术博物馆、洛杉矶郡艺术博物馆和克利夫兰艺术博物馆的37,407件高分辨率艺术品图像,涉及29种材料与技法类别。其核心研究在于突破传统图像分类任务中统一缩放图像导致的细节损失与形变问题,推动计算机视觉领域对细节感知与结构理解能力的深化,为医学影像、自动驾驶等需精细化处理的领域提供基准测试平台。
当前挑战
MAMe数据集面临的挑战主要体现在两方面:其一,在领域问题层面,艺术品媒介分类属于细粒度视觉识别任务,类内差异巨大而类间特征高度相似,如版画技法中的蚀刻与雕刻需依赖线条轮廓、网格纹理等微观特征区分,这对模型的高分辨率细节捕捉能力提出严峻考验;其二,在构建过程中,需整合多家博物馆异构的元数据标注体系,通过艺术专家人工映射建立视觉可区分的类别体系,同时平衡图像分辨率、纵横比及样本量,确保数据在保持高分辨率与可变形状天然属性的同时具备研究可行性。
常用场景
经典使用场景
在计算机视觉领域,MAMe数据集为高分辨率与可变形状图像分类研究提供了经典实验平台。该数据集汇集了来自三大博物馆的37,407件艺术品图像,涵盖29种艺术媒介类别,其图像平均分辨率达6.6兆像素,且纵横比分布均衡。研究者常利用该数据集探索卷积神经网络在保留原始图像几何特征与细节信息时的性能边界,特别是在处理需要精细纹理辨识(如版画技法鉴别)与复杂材质分析(如金属腐蚀特征识别)的任务时,MAMe成为验证模型感知细微视觉模式能力的基准工具。
衍生相关工作
基于MAMe数据集的研究催生了多项针对高分辨率与可变形状图像处理的创新工作。部分研究改进了卷积神经网络的池化策略与感受野设计,以适配非均匀输入尺寸;另有工作开发了动态裁剪与自适应填充算法,减少形状归一化带来的信息扭曲。在可解释性分析方向,学者结合层间相关性传播技术,对比了高/低分辨率模型在艺术品材质鉴别中的注意力差异,揭示了纹理特征与几何特征在不同分辨率下的贡献度变化。这些成果进一步推动了细粒度图像分类与跨模态文化遗产分析领域的发展。
数据集最近研究
最新研究方向
在计算机视觉领域,MAMe数据集作为高分辨率与可变形状图像分类的新兴基准,正推动着对传统图像处理范式的反思。该数据集聚焦于艺术品媒介识别,其高分辨率特性要求模型捕捉细微纹理与结构细节,而可变形状则挑战了传统固定尺寸输入的局限性。当前研究前沿集中于探索高效利用高分辨率信息的网络架构,如多尺度特征融合与注意力机制,以提升对艺术品材质和技术的鉴别能力。同时,针对可变形状输入的处理方法,如动态池化与自适应裁剪,成为优化模型性能的关键热点。这些研究方向不仅对文化遗产数字化保护具有实践意义,也为医学影像和自动驾驶等需精细视觉分析的领域提供了理论借鉴。
相关研究论文
  • 1
    The MAMe Dataset: On the relevance of High Resolution and Variable Shape image properties巴塞罗那超级计算中心 · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作