DEArt

Name: DEArt
Creator: 巴塞罗那超级计算中心
Published: 2022-11-03 15:33:46
License: 暂无描述

arXiv2022-11-03 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2211.01226v2

下载链接

链接失效反馈

官方服务：

资源简介：

DEArt数据集是由巴塞罗那超级计算中心创建的，专注于欧洲艺术作品的对象检测和姿态分类。该数据集包含超过15000张图像，其中约80%为非典型图像，涵盖了从XII世纪到XVIII世纪的绘画作品。数据集中的图像经过手动标注，包括69个类别的边界框和12种可能的人形对象姿态。DEArt数据集特别关注文化艺术遗产领域，旨在通过深度学习和计算机视觉技术，提高对艺术作品的理解和分析能力，解决现有模型在艺术图像处理上的不足。

The DEArt dataset, created by the Barcelona Supercomputing Center, focuses on object detection and pose classification for European artworks. It contains over 15,000 images, approximately 80% of which are atypical, covering paintings created between the 12th and 18th centuries. All images in the dataset have been manually annotated with bounding boxes for 69 categories and 12 possible human object poses. Specifically targeting the cultural art heritage domain, the DEArt dataset aims to enhance the understanding and analytical capabilities of artworks via deep learning and computer vision technologies, and address the limitations of existing models in art image processing.

提供机构：

巴塞罗那超级计算中心

创建时间：

2022-11-03

搜集汇总

数据集介绍

构建方式

DEArt数据集聚焦于12至18世纪欧洲绘画，旨在弥补文化遗产领域标注数据匮乏的短板。其构建从MS COCO类别出发，经年代筛选保留具历史意义的类目，再通过维基共享资源的分层递归查询，挖掘出如天使、龙等富含象征意义的文化遗产专属类别，最终确立69个物体类别。图像来源涵盖欧洲多家博物馆与数字馆藏，优先选取非标志性场景以丰富上下文信息。标注采用人工与半监督学习相结合的方式：研究团队手动标注1万幅图像，剩余5千幅借助迭代训练的模型推荐标注后人工校正，同时为类人物体标注12种姿态，确保标注的完整性与准确性。

特点

该数据集的核心特色在于其高度的文化遗产针对性与多层次信息结构。相较于通用物体检测数据集，DEArt囊括超过50个文化遗产专属类别，涵盖神话生物、象征性实体等视觉概念，这些在常规数据集中鲜有出现。此外，数据集为类人物体提供姿态标签，覆盖站立、跪拜、骑行等12种动作，为理解画作中的叙事关系与象征意义提供了关键线索。约80%的图像为非标志性场景，平均每幅图像包含多个物体实例，这种丰富的上下文信息使得模型能够学习到更具深度的视觉语义。

使用方法

DEArt数据集以Pascal VOC格式发布，可直接用于训练和评估目标检测模型。研究者可采用Faster R-CNN等架构，借助基于MS COCO预训练模型的迁移学习策略，在文化遗产领域获得接近通用图像水平的检测精度。姿态分类任务则可利用Xception等轻量网络进行训练。数据集已按70%、15%、15%划分为训练、验证与测试集，并确保各类别分布均衡。此外，半监督标注流程中的迭代训练机制亦可复用于扩展类别或提升模型性能，为文化遗产图像的智能索引与语义理解提供坚实的数据基础。

背景与挑战

背景概述

DEArt（European Art Dataset）由巴塞罗那超级计算中心的研究人员Artem Reshetnikov、Maria-Cristina Marinescu和Joaquim More Lopez于2022年创建，旨在填补文化遗产领域计算机视觉数据集的空白。该数据集聚焦12至18世纪的欧洲绘画，包含超过15000张图像，其中约80%为非标志性图像，并手动标注了69个类别的边界框及12种人体姿态。DEArt不仅涵盖了日常物体，还引入了天使、龙等文化遗产特有类别，显著扩展了现有数据集（如MS COCO）的范畴。其核心研究问题在于提升深度学习模型对艺术品的检测精度，通过迁移学习实现了与通用图像模型相当的精度（mAP@0.5=31.2%），为文化遗产的自动索引、搜索和语义理解奠定了重要基础。

当前挑战

DEArt面临的核心挑战包括：1）领域问题：艺术品图像因风格多样、符号隐喻丰富（如象征性生物、历史器物）及非标志性构图，导致通用目标检测模型（如MS COCO预训练模型）精度显著下降，例如人物类检测精度从0.36降至0.25；2）构建过程：文化遗产数据稀缺且不可再生，难以像自然图像那样无限采集；手工标注耗时且需跨机构保持一致性，需通过半监督学习（3轮2K图像迭代）缓解；此外，类别选择需平衡历史代表性（如“国王”“天使”）与视觉可识别性，排除抽象概念，并解决姿态分类中数据不平衡（如“骑行”“跌倒”类仅少数实例）及动词歧义（如“移动”可能指非姿态含义）等问题。

常用场景

经典使用场景

DEArt数据集在文化遗产计算机视觉领域最具代表性的应用场景是面向欧洲古典绘画（12至18世纪）的目标检测与姿态分类任务。该数据集包含超过15000幅非标志性绘画图像，标注了69个类别（其中50余类为文化遗产特有，如天使、龙、光环等象征性实体）以及12种人体姿态（如跪拜、祈祷、躺卧等）。研究者可利用该数据集训练深度学习模型，实现对绘画中复杂符号化对象和人物动作的精准识别，弥合通用视觉模型在艺术图像上的性能鸿沟。

衍生相关工作

DEArt的发布催生了多项衍生研究。在目标检测领域，研究者基于其标注体系开发了针对文化遗产的弱监督学习模型（如Gonthier等人的IconArt扩展工作）和风格迁移增强方法（如Kadish等人利用AdaIN生成合成训练数据）。在姿态分类方向，其12类姿态标注为后续动作识别研究（如结合SpaCy与GloVe的动词聚类分析）提供了基准。此外，该数据集还推动了多模态学习工作，如将视觉检测结果与SemArt等数据集的文本描述对齐，用于自动生成画作语义理解中的关系推理。

数据集最近研究