HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD|异常检测数据集|信息技术数据集
收藏数据集概述
数据集名称
anomaly-detection-log-datasets
数据集内容
该数据集包含用于评估基于序列的异常检测技术的公开可用日志数据集(HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD)。数据集提供了这些数据集的解析和分组为事件类型序列的脚本,以及一些基本的异常检测技术应用。
数据集结构
数据集目录中包含一些预处理样本,这些文件名为 <dataset>_train
(包含约1%的正常日志序列用于训练),<dataset>_test_normal
(包含剩余的正常日志序列用于测试),和 <dataset>_test_abnormal
(包含所有异常日志序列)。
数据集处理
数据集的处理包括解析和采样。解析使用特定的<dataset>_parse.py
脚本,而采样则通过sample.py
脚本进行,可以指定采样比例和其他参数如时间窗口。
异常检测技术评估
数据集支持多种异常检测技术的评估,包括基于新事件类型、序列长度、事件计数向量、n-grams、编辑距离和事件间到达时间的检测。评估结果显示,基于计数向量的检测在HDFS日志上达到了95.76%的最高F1分数。
引用信息
若使用此数据集,请引用以下出版物:
- Landauer, M., Skopik, F., & Wurzenberger, M. (2023): A Critical Review of Common Log Data Sets Used for Evaluation of Sequence-based Anomaly Detection Techniques. arxiv:2309.02854. [PDF]

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
FSDD
FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。
github.com 收录
UAVDT
UAVDT是一个用于目标检测任务的数据集。
github 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录