ADRepository

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/GuansongPang/anomaly-detection-datasets

下载链接

链接失效反馈

资源简介：

本仓库提供了一系列用于异常检测的实际数据集，包括表格数据（分类和数值数据）、时间序列数据、图数据、图像数据和视频数据。这些数据集用于支持深度异常检测的研究，并可引用相关论文以确认使用。

This repository offers a collection of real-world datasets for anomaly detection, encompassing tabular data (both categorical and numerical), time series data, graph data, image data, and video data. These datasets are designed to support research in deep anomaly detection and can be referenced in conjunction with relevant papers to validate their usage.

创建时间：

2020-10-16

原始信息汇总

数据集概述

数值型数据集

来源: 来自KDD19论文 - DevNet
数量: 7个数据集
基本统计信息:
- Dataset: donors, census, fraud, celeba, backdoor, campaign, thyroid
- Data size: 619,326, 299,285, 284,807, 202,599, 95,329, 41,188, 7,200
- Dimensionality: 10, 500, 29, 39, 196, 62, 21
详细介绍及性能基准: 可在DevNet论文中找到，源代码位于DevNet GitHub仓库。

类别型数据集

数量: 14个数据集
基本统计信息:
- Dataset: bank, census, AID362, w7a, CMC, APAS, CelebA, Chess, AD, Solar-flare, Probe, U2R, R10, CoverType
- Data size: 41,188, 299,285, 4,279, 49,749, 1,473, 12,695, 202,599, 28,056, 3,279, 1,066, 64,759, 60,821, 12,897, 581,012
- Dimensionality: 10, 33, 114, 300, 8, 64, 39, 6, 1,555, 11, 6, 6, 100, 44
- Anomaly class: yes, 50K+, active, yes, child>10, train, bald, zero, ad., F, attack, attack, corn, cottonwood
详细介绍及性能基准: 可在相关论文中找到。

视频数据集

数据集: ShanghaiTech Campus, UCF-Crime
特点: 使用I3D骨干提取的特征，适用于弱监督视频异常检测。
详细信息: 可在相关论文中找到。

图像数据集

数量: 14个数据集
应用领域: 缺陷检测, 新颖性检测, 医学图像中的病变检测, 自动驾驶场景中的异常分割。
详细信息: 可在相关论文中找到。

图数据集

图级异常检测: 16个数据集
- 基本统计信息: 包括PROTEINS_full, ENZYMES, AIDS等。
节点级异常检测: 4个数据集
- 基本统计信息: 包括YelpRes, YelpHotel, YelpNYC, Amazon。
详细信息: 可在相关论文中找到。

时间序列数据集

常用数据集: ASD, SMD, SWAT, WaQ, DSADS, Epilepsy
详细信息: 可在相关论文中找到。
关注点: 现有数据集的使用存在一些问题，建议参考相关论文获取更多信息。

AI搜集汇总

数据集介绍

构建方式

ADRepository数据集的构建基于对现有文献中广泛使用的真实世界异常检测数据集的持续更新。部分数据集由不平衡分类数据集转换而来，而其他数据集则直接包含真实异常。这些数据集涵盖了数值、分类、视频、图像、图和时间序列等多种类型，旨在为深度异常检测研究提供丰富的实验资源。

特点

ADRepository数据集的特点在于其多样性和广泛性。它不仅包含了多种类型的数据集，如数值、分类、视频、图像、图和时间序列，还涵盖了多个应用领域，如缺陷检测、医学图像中的病变检测和自动驾驶场景中的异常分割。此外，数据集的持续更新确保了其时效性和前沿性。

使用方法

ADRepository数据集的使用方法多样，适用于各种异常检测模型的评估和开发。用户可以根据具体需求选择不同类型的数据集进行实验，如数值数据集用于评估算法的准确性，图像数据集用于测试模型的视觉识别能力。使用时，建议引用相关文献以确保学术诚信，并可根据需要访问GitHub页面获取更多详细信息和最新更新。

背景与挑战

背景概述

ADRepository数据集是由Guansong Pang等人创建并维护的一个持续更新的异常检测数据集集合。该数据集的创建旨在扩展深度异常检测领域的研究，特别是作为其近期深度异常检测综述论文的补充资源。ADRepository包含了多种类型的数据集，包括数值数据、分类数据、视频数据、图像数据、图数据和时间序列数据，涵盖了从工业缺陷检测到医学图像分析等多个应用领域。这些数据集的提供不仅为研究人员提供了一个标准化的测试平台，还促进了异常检测技术在实际应用中的发展。

当前挑战

ADRepository数据集在构建过程中面临了多重挑战。首先，数据集的多样性要求研究人员在处理不同类型的数据时采用不同的预处理和特征提取方法。其次，异常检测任务本身具有高度的复杂性，尤其是在处理不平衡数据集和真实世界中的复杂异常时。此外，数据集的更新和维护也是一个持续的挑战，确保数据集的时效性和质量对于保持其在学术界和工业界的影响力至关重要。最后，如何有效地评估和比较不同异常检测模型在ADRepository上的性能也是一个重要的研究方向。

常用场景

经典使用场景

ADRepository数据集在异常检测领域中被广泛应用于多种经典场景，包括但不限于缺陷检测、新颖性检测、医学影像中的病变检测以及自动驾驶场景中的异常分割。这些数据集通过提供真实世界中的异常样本，为研究人员提供了丰富的实验材料，以评估和改进各种异常检测模型的性能。

实际应用

ADRepository数据集在实际应用中具有广泛的价值，涵盖了工业缺陷检测、医疗诊断、网络安全监控以及智能交通系统等多个领域。例如，在工业生产中，利用该数据集训练的模型可以有效识别产品缺陷，提高生产质量；在医疗领域，模型能够辅助医生快速发现病变区域，提升诊断效率。

衍生相关工作

ADRepository数据集的发布催生了大量相关研究工作，包括但不限于深度异常检测网络（DevNet）、图级别异常检测（Glocal Knowledge Distillation）以及跨域图异常检测（Cross-domain graph anomaly detection）。这些研究不仅提升了异常检测技术的准确性和鲁棒性，还推动了相关领域的技术进步和应用拓展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集