five

HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD|异常检测数据集|信息技术数据集

收藏
github2024-04-25 更新2024-05-31 收录
异常检测
信息技术
下载链接:
https://github.com/ait-aecid/anomaly-detection-log-datasets
下载链接
链接失效反馈
资源简介:
该仓库包含用于分析异常检测中常用的公开日志数据集(HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD)的脚本。这些数据集用于评估基于序列的异常检测技术。

This repository contains scripts for analyzing publicly available log datasets commonly used in anomaly detection (HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD). These datasets are utilized to evaluate sequence-based anomaly detection techniques.
创建时间:
2023-04-28
原始信息汇总

数据集概述

数据集名称

anomaly-detection-log-datasets

数据集内容

该数据集包含用于评估基于序列的异常检测技术的公开可用日志数据集(HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD)。数据集提供了这些数据集的解析和分组为事件类型序列的脚本,以及一些基本的异常检测技术应用。

数据集结构

数据集目录中包含一些预处理样本,这些文件名为 <dataset>_train(包含约1%的正常日志序列用于训练),<dataset>_test_normal(包含剩余的正常日志序列用于测试),和 <dataset>_test_abnormal(包含所有异常日志序列)。

数据集处理

数据集的处理包括解析和采样。解析使用特定的<dataset>_parse.py脚本,而采样则通过sample.py脚本进行,可以指定采样比例和其他参数如时间窗口。

异常检测技术评估

数据集支持多种异常检测技术的评估,包括基于新事件类型、序列长度、事件计数向量、n-grams、编辑距离和事件间到达时间的检测。评估结果显示,基于计数向量的检测在HDFS日志上达到了95.76%的最高F1分数。

引用信息

若使用此数据集,请引用以下出版物:

  • Landauer, M., Skopik, F., & Wurzenberger, M. (2023): A Critical Review of Common Log Data Sets Used for Evaluation of Sequence-based Anomaly Detection Techniques. arxiv:2309.02854. [PDF]
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合多个公开的日志数据集(如HDFS、BGL、OpenStack等)构建而成,旨在评估基于序列的异常检测技术。数据集的构建过程包括从不同来源获取原始日志数据,并通过特定的解析脚本将日志解析为事件序列。解析后的数据被分为训练集(包含约1%的正常日志序列)、测试集(包含剩余的正常日志序列)和异常测试集(包含所有异常日志序列)。此外,数据集还提供了预处理样本,以便用户无需下载所有数据即可快速开始实验。
使用方法
使用该数据集时,用户可以通过运行相应的解析脚本(如`<dataset>_parse.py`)将原始日志数据解析为事件序列。解析后的数据可以进一步用于训练和测试异常检测模型。数据集提供了两种采样方式:从解析后的数据中生成样本,或通过打乱现有样本生成新的训练和测试集。用户还可以通过运行分析脚本(如`analyze.py`)来获取数据集的基本统计信息,如正常和异常序列的分布情况。最后,用户可以使用评估脚本(如`evaluate.py`)来测试不同的异常检测技术,并根据F1分数等指标评估模型的性能。
背景与挑战
背景概述
在系统日志分析领域,异常检测技术的发展日益受到关注。HDFS、BGL、OpenStack、Hadoop、Thunderbird、ADFA、AWSCTD等数据集的创建,旨在为基于序列的异常检测技术提供标准化的评估基准。这些数据集由多个知名研究机构和学者共同开发,如清华大学的Wei Xu团队、Loghub项目组以及Computer Failure Data Repository等。这些数据集的核心研究问题是如何从大规模系统日志中有效识别异常行为,从而提升系统的可靠性和安全性。自2009年以来,这些数据集已被广泛应用于系统日志分析、异常检测和故障诊断等领域,推动了相关技术的快速发展。
当前挑战
这些数据集在构建和应用过程中面临诸多挑战。首先,日志数据的多样性和复杂性使得数据预处理和解析变得异常困难,尤其是不同版本的日志数据在格式和内容上存在显著差异。其次,异常检测技术在处理大规模日志数据时,往往面临计算资源消耗大、检测效率低的问题。此外,日志数据中的噪声和缺失信息也对模型的准确性提出了严峻挑战。最后,如何有效评估不同异常检测技术的性能,尤其是在真实场景中的泛化能力,仍然是一个亟待解决的问题。
常用场景
经典使用场景
该数据集主要用于评估基于序列的异常检测技术,特别是在系统日志分析领域。通过将日志数据解析为事件序列,研究人员可以应用各种异常检测算法,如深度学习模型、统计方法和基于规则的技术,以识别系统中的异常行为。这些数据集的经典使用场景包括日志序列的预处理、特征提取、模型训练和异常检测算法的性能评估。
解决学术问题
该数据集解决了系统日志分析中的关键学术问题,特别是在大规模系统中检测异常行为。通过提供结构化的日志数据和预处理工具,研究人员能够开发和验证新的异常检测算法,从而提高系统的可靠性和安全性。这些数据集的意义在于为学术界提供了一个标准化的基准,促进了异常检测技术的进步和创新。
实际应用
在实际应用中,这些数据集被广泛用于工业界和学术界的系统监控和故障检测。例如,在云计算环境中,通过分析OpenStack和Hadoop的日志数据,可以实时检测服务器的异常行为,从而及时采取措施避免系统崩溃。此外,这些数据集还被用于网络安全领域,帮助识别潜在的入侵行为和恶意攻击。
数据集最近研究
最新研究方向
近年来,基于日志数据的异常检测技术在系统运维和安全领域引起了广泛关注。HDFS、BGL、OpenStack等数据集作为评估序列异常检测技术的重要基准,推动了该领域的快速发展。最新的研究方向主要集中在通过深度学习模型和序列分析技术,提升异常检测的准确性和效率。例如,DeepLog和LogAnomaly等方法通过挖掘日志序列中的模式,显著提高了异常检测的F1分数。此外,随着云计算和大数据技术的普及,日志数据的规模和复杂性不断增加,如何在大规模日志数据中高效地识别异常行为成为当前的研究热点。这些研究不仅有助于提升系统的稳定性和安全性,还为自动化运维提供了新的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

FSDD

FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录