five

ADRepository|异常检测数据集|数据集数据集

收藏
github2024-05-23 更新2024-05-31 收录
异常检测
数据集
下载链接:
https://github.com/GuansongPang/anomaly-detection-datasets
下载链接
链接失效反馈
资源简介:
本仓库提供了一系列用于异常检测的实际数据集,包括表格数据(分类和数值数据)、时间序列数据、图数据、图像数据和视频数据。这些数据集用于支持深度异常检测的研究,并可引用相关论文以确认使用。

This repository offers a collection of real-world datasets for anomaly detection, encompassing tabular data (both categorical and numerical), time series data, graph data, image data, and video data. These datasets are designed to support research in deep anomaly detection and can be referenced in conjunction with relevant papers to validate their usage.
创建时间:
2020-10-16
原始信息汇总

数据集概述

数值型数据集

  • 来源: 来自KDD19论文 - DevNet
  • 数量: 7个数据集
  • 基本统计信息:
    • Dataset: donors, census, fraud, celeba, backdoor, campaign, thyroid
    • Data size: 619,326, 299,285, 284,807, 202,599, 95,329, 41,188, 7,200
    • Dimensionality: 10, 500, 29, 39, 196, 62, 21
  • 详细介绍及性能基准: 可在DevNet论文中找到,源代码位于DevNet GitHub仓库

类别型数据集

  • 数量: 14个数据集
  • 基本统计信息:
    • Dataset: bank, census, AID362, w7a, CMC, APAS, CelebA, Chess, AD, Solar-flare, Probe, U2R, R10, CoverType
    • Data size: 41,188, 299,285, 4,279, 49,749, 1,473, 12,695, 202,599, 28,056, 3,279, 1,066, 64,759, 60,821, 12,897, 581,012
    • Dimensionality: 10, 33, 114, 300, 8, 64, 39, 6, 1,555, 11, 6, 6, 100, 44
    • Anomaly class: yes, 50K+, active, yes, child>10, train, bald, zero, ad., F, attack, attack, corn, cottonwood
  • 详细介绍及性能基准: 可在相关论文中找到。

视频数据集

  • 数据集: ShanghaiTech Campus, UCF-Crime
  • 特点: 使用I3D骨干提取的特征,适用于弱监督视频异常检测。
  • 详细信息: 可在相关论文中找到。

图像数据集

  • 数量: 14个数据集
  • 应用领域: 缺陷检测, 新颖性检测, 医学图像中的病变检测, 自动驾驶场景中的异常分割。
  • 详细信息: 可在相关论文中找到。

图数据集

  • 图级异常检测: 16个数据集
    • 基本统计信息: 包括PROTEINS_full, ENZYMES, AIDS等。
  • 节点级异常检测: 4个数据集
    • 基本统计信息: 包括YelpRes, YelpHotel, YelpNYC, Amazon。
  • 详细信息: 可在相关论文中找到。

时间序列数据集

  • 常用数据集: ASD, SMD, SWAT, WaQ, DSADS, Epilepsy
  • 详细信息: 可在相关论文中找到。
  • 关注点: 现有数据集的使用存在一些问题,建议参考相关论文获取更多信息。
AI搜集汇总
数据集介绍
main_image_url
构建方式
ADRepository数据集的构建基于对现有文献中广泛使用的真实世界异常检测数据集的持续更新。部分数据集由不平衡分类数据集转换而来,而其他数据集则直接包含真实异常。这些数据集涵盖了数值、分类、视频、图像、图和时间序列等多种类型,旨在为深度异常检测研究提供丰富的实验资源。
特点
ADRepository数据集的特点在于其多样性和广泛性。它不仅包含了多种类型的数据集,如数值、分类、视频、图像、图和时间序列,还涵盖了多个应用领域,如缺陷检测、医学图像中的病变检测和自动驾驶场景中的异常分割。此外,数据集的持续更新确保了其时效性和前沿性。
使用方法
ADRepository数据集的使用方法多样,适用于各种异常检测模型的评估和开发。用户可以根据具体需求选择不同类型的数据集进行实验,如数值数据集用于评估算法的准确性,图像数据集用于测试模型的视觉识别能力。使用时,建议引用相关文献以确保学术诚信,并可根据需要访问GitHub页面获取更多详细信息和最新更新。
背景与挑战
背景概述
ADRepository数据集是由Guansong Pang等人创建并维护的一个持续更新的异常检测数据集集合。该数据集的创建旨在扩展深度异常检测领域的研究,特别是作为其近期深度异常检测综述论文的补充资源。ADRepository包含了多种类型的数据集,包括数值数据、分类数据、视频数据、图像数据、图数据和时间序列数据,涵盖了从工业缺陷检测到医学图像分析等多个应用领域。这些数据集的提供不仅为研究人员提供了一个标准化的测试平台,还促进了异常检测技术在实际应用中的发展。
当前挑战
ADRepository数据集在构建过程中面临了多重挑战。首先,数据集的多样性要求研究人员在处理不同类型的数据时采用不同的预处理和特征提取方法。其次,异常检测任务本身具有高度的复杂性,尤其是在处理不平衡数据集和真实世界中的复杂异常时。此外,数据集的更新和维护也是一个持续的挑战,确保数据集的时效性和质量对于保持其在学术界和工业界的影响力至关重要。最后,如何有效地评估和比较不同异常检测模型在ADRepository上的性能也是一个重要的研究方向。
常用场景
经典使用场景
ADRepository数据集在异常检测领域中被广泛应用于多种经典场景,包括但不限于缺陷检测、新颖性检测、医学影像中的病变检测以及自动驾驶场景中的异常分割。这些数据集通过提供真实世界中的异常样本,为研究人员提供了丰富的实验材料,以评估和改进各种异常检测模型的性能。
实际应用
ADRepository数据集在实际应用中具有广泛的价值,涵盖了工业缺陷检测、医疗诊断、网络安全监控以及智能交通系统等多个领域。例如,在工业生产中,利用该数据集训练的模型可以有效识别产品缺陷,提高生产质量;在医疗领域,模型能够辅助医生快速发现病变区域,提升诊断效率。
衍生相关工作
ADRepository数据集的发布催生了大量相关研究工作,包括但不限于深度异常检测网络(DevNet)、图级别异常检测(Glocal Knowledge Distillation)以及跨域图异常检测(Cross-domain graph anomaly detection)。这些研究不仅提升了异常检测技术的准确性和鲁棒性,还推动了相关领域的技术进步和应用拓展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。

github 收录