HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD

github2024-04-25 更新2024-05-31 收录

下载链接：

https://github.com/ait-aecid/anomaly-detection-log-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含用于分析异常检测中常用的公开日志数据集（HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD）的脚本。这些数据集用于评估基于序列的异常检测技术。

This repository contains scripts for analyzing publicly available log datasets commonly used in anomaly detection (HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD). These datasets are utilized to evaluate sequence-based anomaly detection techniques.

创建时间：

2023-04-28

原始信息汇总

数据集概述

数据集名称

anomaly-detection-log-datasets

数据集内容

该数据集包含用于评估基于序列的异常检测技术的公开可用日志数据集（HDFS, BGL, OpenStack, Hadoop, Thunderbird, ADFA, AWSCTD）。数据集提供了这些数据集的解析和分组为事件类型序列的脚本，以及一些基本的异常检测技术应用。

数据集结构

数据集目录中包含一些预处理样本，这些文件名为 <dataset>_train（包含约1%的正常日志序列用于训练），<dataset>_test_normal（包含剩余的正常日志序列用于测试），和 <dataset>_test_abnormal（包含所有异常日志序列）。

数据集处理

数据集的处理包括解析和采样。解析使用特定的<dataset>_parse.py脚本，而采样则通过sample.py脚本进行，可以指定采样比例和其他参数如时间窗口。

异常检测技术评估

数据集支持多种异常检测技术的评估，包括基于新事件类型、序列长度、事件计数向量、n-grams、编辑距离和事件间到达时间的检测。评估结果显示，基于计数向量的检测在HDFS日志上达到了95.76%的最高F1分数。

引用信息

若使用此数据集，请引用以下出版物：

Landauer, M., Skopik, F., & Wurzenberger, M. (2023): A Critical Review of Common Log Data Sets Used for Evaluation of Sequence-based Anomaly Detection Techniques. arxiv:2309.02854. [PDF]

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个公开的日志数据集（如HDFS、BGL、OpenStack等）构建而成，旨在评估基于序列的异常检测技术。数据集的构建过程包括从不同来源获取原始日志数据，并通过特定的解析脚本将日志解析为事件序列。解析后的数据被分为训练集（包含约1%的正常日志序列）、测试集（包含剩余的正常日志序列）和异常测试集（包含所有异常日志序列）。此外，数据集还提供了预处理样本，以便用户无需下载所有数据即可快速开始实验。

使用方法

使用该数据集时，用户可以通过运行相应的解析脚本（如`<dataset>_parse.py`）将原始日志数据解析为事件序列。解析后的数据可以进一步用于训练和测试异常检测模型。数据集提供了两种采样方式：从解析后的数据中生成样本，或通过打乱现有样本生成新的训练和测试集。用户还可以通过运行分析脚本（如`analyze.py`）来获取数据集的基本统计信息，如正常和异常序列的分布情况。最后，用户可以使用评估脚本（如`evaluate.py`）来测试不同的异常检测技术，并根据F1分数等指标评估模型的性能。

背景与挑战

背景概述

在系统日志分析领域，异常检测技术的发展日益受到关注。HDFS、BGL、OpenStack、Hadoop、Thunderbird、ADFA、AWSCTD等数据集的创建，旨在为基于序列的异常检测技术提供标准化的评估基准。这些数据集由多个知名研究机构和学者共同开发，如清华大学的Wei Xu团队、Loghub项目组以及Computer Failure Data Repository等。这些数据集的核心研究问题是如何从大规模系统日志中有效识别异常行为，从而提升系统的可靠性和安全性。自2009年以来，这些数据集已被广泛应用于系统日志分析、异常检测和故障诊断等领域，推动了相关技术的快速发展。

当前挑战

这些数据集在构建和应用过程中面临诸多挑战。首先，日志数据的多样性和复杂性使得数据预处理和解析变得异常困难，尤其是不同版本的日志数据在格式和内容上存在显著差异。其次，异常检测技术在处理大规模日志数据时，往往面临计算资源消耗大、检测效率低的问题。此外，日志数据中的噪声和缺失信息也对模型的准确性提出了严峻挑战。最后，如何有效评估不同异常检测技术的性能，尤其是在真实场景中的泛化能力，仍然是一个亟待解决的问题。

常用场景

经典使用场景

该数据集主要用于评估基于序列的异常检测技术，特别是在系统日志分析领域。通过将日志数据解析为事件序列，研究人员可以应用各种异常检测算法，如深度学习模型、统计方法和基于规则的技术，以识别系统中的异常行为。这些数据集的经典使用场景包括日志序列的预处理、特征提取、模型训练和异常检测算法的性能评估。

解决学术问题

该数据集解决了系统日志分析中的关键学术问题，特别是在大规模系统中检测异常行为。通过提供结构化的日志数据和预处理工具，研究人员能够开发和验证新的异常检测算法，从而提高系统的可靠性和安全性。这些数据集的意义在于为学术界提供了一个标准化的基准，促进了异常检测技术的进步和创新。

实际应用

在实际应用中，这些数据集被广泛用于工业界和学术界的系统监控和故障检测。例如，在云计算环境中，通过分析OpenStack和Hadoop的日志数据，可以实时检测服务器的异常行为，从而及时采取措施避免系统崩溃。此外，这些数据集还被用于网络安全领域，帮助识别潜在的入侵行为和恶意攻击。

数据集最近研究