ARTeFACT

Name: ARTeFACT
Creator: 格拉斯哥大学
Published: 2024-12-06 03:52:25
License: 暂无描述

arXiv2024-12-06 更新2024-12-10 收录

下载链接：

https://daniela997.github.io/ARTeFACT/

下载链接

链接失效反馈

官方服务：

资源简介：

ARTeFACT数据集由格拉斯哥大学创建，专注于模拟媒体损坏检测，涵盖15种不同类型的损坏，涉及多种主题、媒体和历史背景。数据集包含418张高分辨率图像，每张图像都有像素级的损坏标注，总共有超过11,000个标注。数据集的创建过程包括专家的手动标注和多轮审核，确保标注质量。该数据集主要应用于文化遗产保护领域，旨在解决模拟媒体损坏检测和修复的问题，为评估和改进现有及未来的分割模型提供了全面的基准。

The ARTeFACT dataset, created by the University of Glasgow, focuses on analog media damage detection, covering 15 distinct types of damage across diverse themes, media formats, and historical contexts. It contains 418 high-resolution images, each paired with pixel-level damage annotations, totaling over 11,000 annotations. The dataset was developed through expert manual annotation and multi-round reviews to ensure annotation quality. Primarily applied in the field of cultural heritage conservation, this dataset aims to address the challenges of analog media damage detection and restoration, providing a comprehensive benchmark for evaluating and improving both existing and future segmentation models.

提供机构：

格拉斯哥大学

创建时间：

2024-12-06

搜集汇总

数据集介绍

构建方式

ARTeFACT数据集的构建旨在解决模拟媒体损坏检测的挑战，涵盖了多种类型的模拟媒体，包括绘画、照片、纺织品、马赛克和壁画等。该数据集包含了418张高分辨率图像，涵盖了15种不同的损坏类型，并提供了超过11,000个像素级的损坏标注。每张图像都经过专家的详细标注，并经过两轮手动审查以确保标注质量。此外，数据集还提供了基于材料和内容的分类，以及自然语言描述，进一步增强了数据集的多样性和实用性。

特点

ARTeFACT数据集的显著特点在于其广泛的多样性和高精度的标注。数据集不仅涵盖了多种模拟媒体类型，还详细分类了15种不同的损坏类型，包括材料损失、剥落、灰尘、裂纹等。此外，数据集还提供了基于材料和内容的分类，帮助研究者更好地理解不同媒体类型中损坏的表现形式。自然语言描述的引入也为基于文本的损坏检测提供了可能，使得数据集在多种应用场景下具有广泛的适用性。

使用方法

ARTeFACT数据集可用于多种机器学习任务，特别是在损坏检测和分割领域。研究者可以使用该数据集训练和评估各种分割模型，包括卷积神经网络（CNN）、Transformer模型以及基于扩散的分割模型。数据集支持零样本、监督、无监督和文本引导等多种设置下的模型评估。此外，数据集的自然语言描述部分可以用于开发基于文本提示的损坏检测方法，进一步扩展了其应用范围。

背景与挑战

背景概述

文化遗产保护领域中，准确检测和分类模拟媒体（如绘画、照片、纺织品等）的损坏对于文化遗产的保存至关重要。尽管机器学习模型在已知损坏操作符的情况下表现出色，但在监督训练后仍难以稳健地预测损坏位置，这使得可靠的损坏检测成为一个挑战。为此，Daniela Ivanova等人于2024年推出了ARTeFACT数据集，该数据集包含超过11,000个标注，涵盖15种不同类型的损坏，涉及多种主题、媒体和历史背景。该数据集不仅提供了像素级的损坏掩码，还提供了人类验证的文本提示，描述图像的语义内容和损坏类型。ARTeFACT数据集的推出为模拟媒体损坏检测和修复提供了一个开创性的基准，推动了文化遗产保护领域的发展。

当前挑战

ARTeFACT数据集面临的挑战主要集中在两个方面：首先，模拟媒体的损坏类型多样且复杂，涵盖了从化学降解到机械损伤的多种形式，这使得数据集的构建和标注过程异常复杂。其次，现有的机器学习模型在处理跨媒体类型的损坏检测时表现不佳，尤其是在零样本、监督和无监督设置下，模型难以泛化到未见过的媒体类型和损坏类型。此外，数据集的构建过程中，损坏的多样性和复杂性使得数据收集和标注变得极为困难，尤其是需要覆盖不同材料和内容的损坏表现。这些挑战凸显了当前模型在文化遗产保护领域中的局限性，也为未来的研究提供了改进的方向。

常用场景

经典使用场景

ARTeFACT数据集的经典使用场景主要集中在文化遗产保护领域，特别是对模拟媒体（如绘画、照片、纺织品等）的损伤检测与分类。该数据集通过提供超过11,000个像素级的损伤标注，涵盖15种不同类型的损伤，支持研究人员开发和评估用于损伤检测的深度学习模型。这些模型可以用于自动识别和定位模拟媒体中的损伤，从而为后续的修复工作提供基础。

衍生相关工作

基于ARTeFACT数据集，许多相关工作得以展开，特别是在损伤检测和图像修复领域。例如，研究人员可以利用该数据集开发新的深度学习模型，以提高损伤检测的准确性和鲁棒性。此外，该数据集还激发了对扩散模型和文本引导分割方法的研究，这些方法在文化遗产保护中展现出潜在的应用前景。

数据集最近研究