Multi-View Outlier/Anomaly Detection Benchmark Datasets

github2024-10-18 更新2024-10-19 收录

下载链接：

https://github.com/walawalagoose/Multi-view-Outlier-Anomaly-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个专注于多视图数据上异常检测/离群值检测任务的基准数据集集合，基于从20+篇相关论文中收集和总结的数据集/基线模型总结得出。

This is a benchmark dataset collection focused on anomaly and outlier detection tasks on multi-view data, which is compiled based on datasets and baseline models collected and summarized from more than 20 relevant research papers.

创建时间：

2024-10-09

原始信息汇总

数据集概述

20newsgroup

描述: 包含约20,000个新闻组文档，分为20个不同的新闻组。
特征: 多视图；包含异常
使用: MUVAD, MODGD
链接: 20newsgroup-homepage, 20newsgroup-datapage

AWA2 (AWA-10)

描述: 包含37322张50种动物类别的图像，用于基准测试迁移学习算法。
特征: 多视图；包含异常
使用: SRLSP, IAMOD
链接: AWA2

BUAA VisNir (BUAA NIR-VIS)

描述: 包含150人的红外、彩色和未知类型的图像。
特征: 多视图；包含异常
使用: DMOD, CRMOD, LDSR
链接: BUAA VisNir

Caltech 101

描述: 包含101个类别的图像，每个类别有40到800张图像。
特征: 多视图；包含异常
使用: SRLSP, IAMOD, MODGD
链接: Caltech 101-homepage, Caltech 101-datapage

COIL20

描述: COIL-20数据集的三视图版本，包含20个类别的图像。
特征: 多视图；包含异常
使用: MODGD
链接: COIL20

DBLP

描述: 计算机科学文献数据库，包含多种格式的元数据。
特征: 多视图；包含异常
使用: HOAD
链接: DBLP-original, DBLP-kaggle

KDD-Cup 1999

描述: 用于网络入侵检测的数据集，包含多种网络连接数据。
特征: 多视图；包含异常
使用: CRMOD
链接: KDD-Cup 1999-original, KDD-Cup 1999-kaggle

LandUse-21

描述: 包含21个类别土地利用图像的数据集，每类有100张图像。
特征: 多视图；包含异常
使用: MODGD
链接: LandUse-21-original, LandUse-21-availablenow

MNIST & USPS

特征: 多视图；包含异常

MNIST

描述: 包含70,000张手写数字图像的数据集。
使用: NCMOD
链接: MNIST

USPS

描述: 包含约50,000张手写文本图像的数据集。
使用:
链接: USPS

USPS-MNIST

使用: CL, MLRA

MovieLens-1M

描述: 包含100万条电影评分的数据集，来自6000名用户对4000部电影的评分。
特征: 多视图；包含异常
使用: HOAD, MLRA
链接: MovieLens-1M

MSRC-v1

描述: 包含多个类别图像的数据集，用于对象识别研究。
特征: 多视图；包含异常
使用: SRLSP, IAMOD
链接: MSRC-v1

Oxford Flowers

特征: 多视图；包含异常

Oxford 17 Flowers

描述: 包含17个类别的花卉图像，每类有80张图像。
使用: CL
链接: Oxford 17 Flowers

Oxford 102 Flowers

描述: 包含102个类别的花卉图像，每类有40到258张图像。
使用:
链接: Oxford 102 Flowers

搜集汇总

数据集介绍

构建方式

该数据集的构建基于从30多篇相关论文中收集和总结的多视图异常检测/离群值检测任务的基线模型和数据集。这些数据集和模型经过系统的分类和详细的描述，旨在为多视图数据上的异常检测任务提供一个全面的基准。由于版权原因，该仓库仅提供数据集的链接，而非原始资源。

特点

该数据集的主要特点在于其多视图的特性，涵盖了多种视图数据，如图像、文本和数值数据等。此外，数据集中的异常检测任务涉及多种异常类型，包括类异常和属性异常，这使得该数据集在多视图异常检测领域具有广泛的应用价值。

使用方法

用户可以通过访问该仓库提供的链接获取数据集，并结合仓库中提供的基线模型进行异常检测实验。数据集的使用方法包括但不限于：数据预处理、模型训练、异常检测和结果评估。用户可以根据具体需求选择合适的视图和模型进行实验，以验证和改进现有的异常检测算法。

背景与挑战

背景概述

Anomaly Detection Benchmark Datasets（异常检测基准数据集）是一个专注于多视图数据上异常检测与离群值检测任务的数据集集合。该数据集由多个研究机构和学者共同创建，旨在为多视图异常检测任务提供基准模型和数据集。自创建以来，该数据集已从30多篇相关论文中收集和总结了大量数据集和基线模型，成为该领域的重要资源。其核心研究问题是如何在多视图数据中有效检测异常和离群值，这一问题对图像分类、文本分析等多个领域具有重要影响。

当前挑战

该数据集面临的挑战主要包括两个方面。首先，多视图数据的复杂性使得异常检测任务变得尤为困难，需要开发能够处理不同视图间关系的模型。其次，数据集的构建过程中，研究人员需克服数据收集、标注和版权问题，确保数据集的可靠性和可用性。此外，随着技术的不断进步，如何持续更新和优化数据集，以适应新的研究需求和方法，也是一个重要的挑战。

常用场景

经典使用场景

在多视图异常检测领域，Anomaly Detection Benchmark Datasets 数据集被广泛应用于评估和比较不同算法的性能。该数据集包含了多个基准数据集，涵盖了从文本到图像的多种数据类型，为研究者提供了一个全面的测试平台。通过在这些数据集上应用如HOAD、AP、DMOD等主流方法，研究者能够系统地分析和优化多视图异常检测算法的有效性和鲁棒性。

实际应用

在实际应用中，Anomaly Detection Benchmark Datasets 数据集被用于多种场景，如网络安全、金融欺诈检测和医疗诊断等。通过在实际数据上应用多视图异常检测算法，企业和机构能够更有效地识别和预防异常行为，从而提高系统的安全性和可靠性。此外，该数据集还支持了智能监控和预测维护等新兴应用，为各行业提供了技术支持。

衍生相关工作

基于 Anomaly Detection Benchmark Datasets 数据集，研究者们开发了多种创新算法和模型，如HOAD、AP、DMOD等，这些工作在多视图异常检测领域产生了深远影响。此外，该数据集还激发了一系列相关研究，包括深度学习在多视图数据中的应用、基于图的异常检测方法等。这些衍生工作不仅丰富了多视图异常检测的理论体系，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集