HDFS, BGL, Liberty, Thunderbird

github2024-11-25 更新2024-11-28 收录

下载链接：

https://github.com/guanwei49/LogLLM

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含四个数据集：HDFS、BGL、Liberty和Thunderbird。这些数据集用于基于日志的异常检测实验，每个数据集都提供了日志消息数量、日志序列数量、训练和测试数据中的异常数量及异常比例等详细统计信息。

This repository contains four datasets: HDFS, BGL, Liberty, and Thunderbird. These datasets are employed for log-based anomaly detection experiments, and each dataset provides detailed statistical information including the number of log messages, the number of log sequences, the number of anomalies in training and test data, and the anomaly ratio.

创建时间：

2024-10-31

原始信息汇总

LogLLM: Log-based Anomaly Detection Using Large Language Models

数据集统计

数据集	# 日志消息	# 日志序列	训练数据 # 日志序列	训练数据 # 异常	训练数据异常比率	测试数据 # 日志序列	测试数据 # 异常	测试数据异常比率
HDFS	11,175,629	575,061	460,048	13497	2.93%	115013	3341	2.90%
BGL	4,747,963	47,135	37,708	4009	10.63%	9427	817	8.67%
Liberty	5,000,000	50,000	40000	34144	85.36%	10000	651	6.51%
Thunderbird	10,000,000	99,997	79,997	837	1.05%	20000	29	0.15%

实验结果

模型	日志解析器	HDFS 精度	HDFS 召回率	HDFS F1	BGL 精度	BGL 召回率	BGL F1	Liberty 精度	Liberty 召回率	Liberty F1	Thunderbird 精度	Thunderbird 召回率	Thunderbird F1	平均 F1
DeepLog	✔	0.835	0.994	0.908	0.166	0.988	0.285	0.751	0.855	0.800	0.017	0.963	0.033	0.506
LogAnomaly	✔	0.886	0.893	0.966	0.176	0.985	0.299	0.684	0.876	0.768	0.025	0.963	0.050	0.521
PLELog	✔	0.893	0.979	0.934	0.595	0.880	0.710	0.795	0.874	0.832	0.826	0.704	0.760	0.809
FastLogAD	✔	0.721	0.893	0.798	0.167	1.000	0.287	0.151	0.999	0.263	0.008	0.931	0.017	0.341
LogBERT	✔	0.989	0.614	0.758	0.165	0.989	0.283	0.909	0.615	0.734	0.143	0.500	0.222	0.499
LogRobust	✔	0.961	1.000	0.980	0.696	0.968	0.810	0.695	0.979	0.813	0.318	1.000	0.482	0.771
CNN	✔	0.966	1.000	0.982	0.698	0.965	0.810	0.580	0.914	0.709	0.900	0.670	0.766	0.817
NeuralLog	✘	0.971	0.988	0.979	0.792	0.884	0.835	0.875	0.926	0.900	0.794	0.931	0.857	0.893
RAPID	✘	1.000	0.859	0.924	0.874	0.399	0.548	0.911	0.611	0.732	0.200	0.207	0.203	0.602
LogLLM	✘	0.994	1.000	0.997	0.861	0.979	0.916	0.992	0.926	0.958	0.966	0.966	0.966	0.959

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大规模日志数据，涵盖了HDFS、BGL、Liberty和Thunderbird四个系统。数据集通过滑动窗口和会话窗口技术，从原始日志中提取出日志序列和异常信息。具体而言，对于BGL、Thunderbird和Liberty系统，采用滑动窗口方法，设定特定的起始和结束行数以生成训练和测试数据；而对于HDFS系统，则使用会话窗口方法。生成的数据集包括日志消息、日志序列以及相应的异常标签，异常比例在不同系统中有所差异，从0.15%到85.36%不等。

特点

该数据集的主要特点在于其多样性和广泛的应用场景。首先，数据集涵盖了多种系统日志，包括分布式文件系统（HDFS）、高性能计算（BGL）、网络服务（Liberty）和邮件系统（Thunderbird），这使得数据集在不同领域的异常检测研究中具有广泛的应用价值。其次，数据集中的异常比例差异显著，从极低的0.15%到极高的85.36%，这为模型训练提供了丰富的数据分布，有助于提高模型的鲁棒性和泛化能力。此外，数据集的构建方法确保了日志序列的完整性和异常信息的准确性，为后续的实验和研究提供了可靠的基础。

使用方法

使用该数据集进行实验和研究时，首先需下载并安装所需的依赖包，并配置相应的环境。接着，用户需下载预训练的大型语言模型（如Meta-Llama-3-8B和bert-base-uncased），并根据具体的数据集（如BGL、HDFS、Liberty或Thunderbird）进行数据准备。对于BGL、Thunderbird和Liberty数据集，用户需在prepareData目录下运行sliding_window.py脚本，设定特定的起始和结束行数以生成训练和测试数据；而对于HDFS数据集，则需运行session_window.py脚本。数据准备完成后，用户可以选择直接使用预训练模型或通过train.py脚本进行模型微调。最后，通过eval.py脚本对测试数据集进行评估，以验证模型的性能。

背景与挑战

背景概述

HDFS、BGL、Liberty和Thunderbird数据集是基于日志的异常检测领域的重要资源，由多个研究机构和团队共同创建。这些数据集的核心研究问题集中在利用大规模语言模型（LLM）进行日志异常检测，旨在提高系统日志分析的准确性和效率。自创建以来，这些数据集已成为该领域研究的基础，推动了日志分析技术的发展，并对系统监控和故障诊断产生了深远影响。

当前挑战

这些数据集在构建和应用过程中面临多项挑战。首先，日志数据的规模庞大且复杂，如何高效地处理和分析这些数据是一个主要难题。其次，日志异常检测的准确性依赖于模型的精度和鲁棒性，而现有模型在不同数据集上的表现差异较大，显示出模型泛化能力的不足。此外，数据集的多样性和不均衡性也增加了模型训练和评估的复杂性，需要进一步研究和优化。

常用场景

经典使用场景

在日志异常检测领域，HDFS、BGL、Liberty和Thunderbird数据集被广泛用于训练和评估基于大型语言模型（LLM）的异常检测算法。这些数据集包含了大规模的日志消息和序列，涵盖了不同类型的系统日志，如分布式文件系统、高性能计算集群等。通过这些数据集，研究人员可以开发和验证能够自动识别系统异常行为的模型，从而提高系统的可靠性和安全性。

衍生相关工作

基于这些数据集，研究者们开发了多种日志异常检测模型，如DeepLog、LogAnomaly、PLELog等。这些模型在不同数据集上表现优异，推动了日志异常检测技术的进步。此外，这些数据集还激发了相关领域的研究，如日志数据预处理、特征工程、模型优化等，形成了丰富的研究成果和应用案例。

数据集最近研究