MANTA

Name: MANTA
Creator: 新南威尔士大学
Published: 2024-12-06 17:01:10
License: 暂无描述

arXiv2024-12-06 更新2024-12-10 收录

下载链接：

https://grainnet.github.io/MANTA

下载链接

链接失效反馈

官方服务：

资源简介：

MANTA数据集由新南威尔士大学等机构创建，是一个大规模的多视角和视觉-文本异常检测数据集，专门用于微小物体。该数据集包含超过137,338张多视角图像，涵盖38个类别，跨越农业、医药、电子、机械和食品五个典型领域。数据集的创建过程包括从多个领域收集微小物体，使用五台高分辨率相机从不同角度捕捉图像，并进行详细的标注。MANTA数据集的应用领域广泛，旨在解决微小物体异常检测中的挑战，特别是在农业、医药和电子等行业中的应用。

The MANTA dataset, created by institutions including the University of New South Wales, is a large-scale multi-view and visual-text anomaly detection dataset specialized for tiny objects. It comprises over 137,338 multi-view images, spanning 38 categories across five typical domains: agriculture, medicine, electronics, machinery, and food. The development of the MANTA dataset entails collecting tiny objects from diverse domains, capturing images from distinct angles using five high-resolution cameras, and performing detailed annotations. The MANTA dataset boasts a broad spectrum of application scenarios, with the goal of addressing the challenges in anomaly detection for tiny objects, particularly in industries such as agriculture, medicine, and electronics.

提供机构：

新南威尔士大学

创建时间：

2024-12-06

搜集汇总

数据集介绍

构建方式

MANTA数据集的构建方式独具匠心，通过精心设计的五摄像头原型系统，从五个不同的视角捕捉微小物体的表面信息。这一系统确保了对每个物体的全面覆盖，从而生成高质量的多视角图像。数据集的视觉部分包含超过137,338张多视角图像，涵盖38个类别，跨越农业、医药、电子、机械和食品五个典型领域。此外，文本部分分为两个子集：Declarative Knowledge（DeclK）和Constructivist Learning（ConsL），分别通过专家领域知识和图像-文本多选题的形式，提供详细的异常描述和学习材料。

特点

MANTA数据集的显著特点在于其多视角和多模态的特性。通过五视角图像捕捉，确保了对微小物体表面的全面覆盖，从而提高了异常检测的准确性。此外，数据集结合了视觉和文本信息，提供了丰富的异常描述和学习材料，使得模型能够在视觉和语言两个维度上进行综合分析。这种多模态的设计不仅增强了数据集的应用广度，也为跨模态学习提供了宝贵的资源。

使用方法

MANTA数据集的使用方法灵活多样，适用于多种异常检测任务。研究者可以利用其多视角图像进行单视角或多视角的异常检测，通过对比不同视角的图像，提高检测的准确性。同时，文本部分的Declarative Knowledge和Constructivist Learning可以作为辅助材料，帮助模型理解和识别异常。此外，数据集还提供了详细的标注和解释，便于研究者进行模型的训练和评估。通过结合视觉和文本信息，MANTA数据集为开发更智能、更全面的异常检测模型提供了坚实的基础。

背景与挑战

背景概述

MANTA数据集，由UNSW Sydney、Gaozhe、SCAU、Li Auto和University of Cambridge的研究人员共同创建，是一个大规模的多视角和视觉-文本异常检测数据集，专注于微小物体。该数据集于2024年发布，包含了超过137,000张多视角图像，涵盖了农业、医药、电子、机械和食品五个典型领域，共38个类别。MANTA不仅提供了丰富的视觉数据，还包括两个文本子集：Declarative Knowledge和Constructivist Learning，分别用于描述常见异常和提供图像-文本多选题。这些数据和文本的结合，旨在推动视觉-语言任务中的异常检测技术，特别是在微小物体检测领域，填补了现有数据集在这一方面的空白。

当前挑战

MANTA数据集面临的挑战主要集中在微小物体的异常检测上。首先，微小物体的自然变异性（heterogeneity）使得同一类别的正常样本之间存在显著差异，增加了模型捕捉复杂正常模式的难度。其次，多视角图像的姿态无关性（pose-agnostic）要求模型在不同视角下都能准确识别异常，而精确的姿态对齐在实际操作中难以实现。此外，微小物体对尺寸变化的高度敏感性（size-sensitive）在医药和机械领域尤为突出，即使是微小的尺寸偏差也可能直接影响剂量准确性和装配规格。在数据集构建过程中，确保多视角图像的高质量和高一致性也是一项技术挑战。

常用场景

经典使用场景

MANTA数据集的经典使用场景在于其多视角和视觉-文本异常检测的能力。该数据集通过收集大量微小物体的高分辨率多视角图像，确保了每个物体的全面覆盖。结合文本描述，MANTA能够支持复杂的异常检测任务，特别是在农业、医药、电子、机械和食品等领域的微小物体检测中，提供了一种综合的视觉和文本分析方法。

解决学术问题

MANTA数据集解决了微小物体异常检测中的多个学术研究问题，特别是在多视角图像和视觉-文本结合的异常检测方面。传统的单视角图像数据集难以捕捉微小物体的全面信息，而MANTA通过多视角图像和详细的文本描述，提供了更全面的异常检测解决方案。这不仅推动了异常检测技术的发展，还为跨模态学习提供了新的研究方向。

衍生相关工作

MANTA数据集的发布催生了一系列相关研究工作，特别是在多模态异常检测和视觉-语言任务方面。许多研究者基于MANTA数据集开发了新的算法和模型，如基于视觉-语言模型的异常检测方法、多视角图像的特征提取技术等。这些研究不仅提升了异常检测的准确性和效率，还为跨模态学习的理论和实践提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集