MAD-Bench

Name: MAD-Bench
Creator: 新加坡国立大学, 新加坡科技设计大学, 越南国立大学, 胡志明市
Published: 2024-11-21 22:18:37
License: 暂无描述

arXiv2024-11-21 更新2024-11-26 收录

下载链接：

http://arxiv.org/abs/2411.14515v1

下载链接

链接失效反馈

官方服务：

资源简介：

MAD-Bench是一个用于多层次异常检测的基准数据集，由新加坡国立大学和新加坡科技设计大学等机构创建。该数据集包含31个子集，涵盖了新颖性检测、工业检测和医学影像等多个领域。数据集通过手动分配严重性级别，确保模型能够准确评估异常的严重程度。创建过程结合了现有的多种数据集，并进行了适当的调整和标注。MAD-Bench旨在解决现有模型在异常检测中无法准确反映实际严重程度的问题，适用于需要精细区分异常严重性的应用场景。

MAD-Bench is a benchmark dataset for multi-level anomaly detection, developed by institutions including the National University of Singapore and the Singapore University of Technology and Design. This dataset comprises 31 subsets spanning multiple domains such as novelty detection, industrial inspection, and medical imaging. The severity levels of anomalies are manually assigned to ensure that models can accurately evaluate the severity of anomalies. Its development process combines multiple existing datasets with appropriate adjustments and annotations. MAD-Bench aims to address the issue that existing anomaly detection models fail to accurately reflect the actual severity of anomalies, and is suitable for application scenarios requiring fine-grained differentiation of anomaly severity.

提供机构：

新加坡国立大学, 新加坡科技设计大学, 越南国立大学, 胡志明市

创建时间：

2024-11-21

搜集汇总

数据集介绍

构建方式

MAD-Bench 数据集的构建旨在评估模型在多层次异常检测（Multilevel Anomaly Detection, MAD）任务中的表现，不仅关注异常检测能力，还强调异常分数与实际严重程度的对齐。该数据集通过从多个领域（如工业检测、医学影像和一类新颖性检测）中选择现有数据集，并根据异常的严重程度对其进行重新分类，从而适应多层次异常检测的设定。此外，数据集还引入了多模态大语言模型（MLLM）基线，利用领域知识和推理能力来分配异常分数，从而提供了一个全面的评估框架。

特点

MAD-Bench 数据集的主要特点在于其多层次的异常分类，这使得模型不仅需要识别异常，还需要根据异常的严重程度进行评分。此外，数据集包含了多种类型的基线模型，包括传统的重建方法、一类分类器和知识蒸馏模型，以及新兴的多模态大语言模型基线。这种多样性使得 MAD-Bench 成为一个全面且具有挑战性的基准，能够评估模型在不同应用场景中的性能。

使用方法

使用 MAD-Bench 数据集时，研究者可以评估其模型在多层次异常检测任务中的表现，通过比较不同模型在异常检测和严重程度评分上的准确性。数据集提供了详细的评估协议，包括 AUROC、C-index 和 Kendall’s Tau-b 等指标，以全面衡量模型的性能。此外，数据集的开源代码框架和数据集使得研究者可以方便地进行实验和验证，从而推动多层次异常检测技术的发展。

背景与挑战

背景概述

MAD-Bench数据集由新加坡国立大学、新加坡科技设计大学、科学大学和越南国家大学胡志明市共同开发，旨在解决多层次异常检测（Multilevel Anomaly Detection, MAD）中的关键问题。该数据集的创建背景源于现有异常检测模型主要在二元设置下操作，其生成的异常评分通常基于数据点与正常数据的偏差，未能准确反映实际异常的严重性。MAD-Bench通过引入多层次异常检测的新设置，评估模型在检测异常的同时，其异常评分是否能有效反映异常的严重性。该数据集的开发对于提升异常检测模型在实际应用中的准确性和实用性具有重要意义。

当前挑战

MAD-Bench数据集面临的挑战主要包括两个方面：一是解决现有异常检测模型在二元设置下的局限性，即模型生成的异常评分难以准确反映异常的实际严重性；二是在数据集构建过程中，如何有效地将不同领域的现有数据集适应于多层次异常检测的上下文中，并确保这些数据集能够全面评估模型在不同严重性级别上的表现。此外，数据集还需要解决模型在处理不同类型异常时的鲁棒性问题，以及在输入数据受到干扰时的表现。这些挑战对于提升异常检测模型的实际应用效果至关重要。

常用场景

经典使用场景

MAD-Bench 数据集的经典使用场景在于评估多层次异常检测模型的性能，特别是在异常严重程度不同的情境下。该数据集通过引入多种基准模型和实际应用场景，旨在全面评估模型在不同领域中的异常检测能力，尤其是其在区分不同严重程度异常方面的表现。

实际应用

在实际应用中，MAD-Bench 数据集被广泛应用于工业检测、医学影像分析和一类别新颖性检测等领域。例如，在工业检测中，该数据集帮助识别从轻微表面污染到严重机器故障的不同级别异常；在医学影像分析中，它有助于区分从轻微病变到严重疾病的不同严重程度。这些应用场景展示了数据集在提升决策效率和资源分配方面的实际价值。

衍生相关工作

MAD-Bench 数据集的推出催生了大量相关研究工作，特别是在多模态大语言模型（MLLM）在异常检测中的应用。研究者们利用该数据集开发了多种基于 MLLM 的基准模型，这些模型在处理复杂和多层次异常检测任务时表现出色。此外，该数据集还促进了异常检测领域中知识蒸馏和自监督学习等技术的进一步发展，为未来的研究提供了新的方向和挑战。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集