ADRepository|异常检测数据集|数据集数据集
收藏数据集概述
数值型数据集
- 来源: 来自KDD19论文 - DevNet
- 数量: 7个数据集
- 基本统计信息:
- Dataset: donors, census, fraud, celeba, backdoor, campaign, thyroid
- Data size: 619,326, 299,285, 284,807, 202,599, 95,329, 41,188, 7,200
- Dimensionality: 10, 500, 29, 39, 196, 62, 21
- 详细介绍及性能基准: 可在DevNet论文中找到,源代码位于DevNet GitHub仓库。
类别型数据集
- 数量: 14个数据集
- 基本统计信息:
- Dataset: bank, census, AID362, w7a, CMC, APAS, CelebA, Chess, AD, Solar-flare, Probe, U2R, R10, CoverType
- Data size: 41,188, 299,285, 4,279, 49,749, 1,473, 12,695, 202,599, 28,056, 3,279, 1,066, 64,759, 60,821, 12,897, 581,012
- Dimensionality: 10, 33, 114, 300, 8, 64, 39, 6, 1,555, 11, 6, 6, 100, 44
- Anomaly class: yes, 50K+, active, yes, child>10, train, bald, zero, ad., F, attack, attack, corn, cottonwood
- 详细介绍及性能基准: 可在相关论文中找到。
视频数据集
- 数据集: ShanghaiTech Campus, UCF-Crime
- 特点: 使用I3D骨干提取的特征,适用于弱监督视频异常检测。
- 详细信息: 可在相关论文中找到。
图像数据集
- 数量: 14个数据集
- 应用领域: 缺陷检测, 新颖性检测, 医学图像中的病变检测, 自动驾驶场景中的异常分割。
- 详细信息: 可在相关论文中找到。
图数据集
- 图级异常检测: 16个数据集
- 基本统计信息: 包括PROTEINS_full, ENZYMES, AIDS等。
- 节点级异常检测: 4个数据集
- 基本统计信息: 包括YelpRes, YelpHotel, YelpNYC, Amazon。
- 详细信息: 可在相关论文中找到。
时间序列数据集
- 常用数据集: ASD, SMD, SWAT, WaQ, DSADS, Epilepsy
- 详细信息: 可在相关论文中找到。
- 关注点: 现有数据集的使用存在一些问题,建议参考相关论文获取更多信息。

Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
ReferCOCO数据集
ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。
github 收录