five

HDFS, BGL, Liberty, Thunderbird

收藏
github2024-11-25 更新2024-11-28 收录
下载链接:
https://github.com/guanwei49/LogLLM
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含四个数据集:HDFS、BGL、Liberty和Thunderbird。这些数据集用于基于日志的异常检测实验,每个数据集都提供了日志消息数量、日志序列数量、训练和测试数据中的异常数量及异常比例等详细统计信息。

This repository contains four datasets: HDFS, BGL, Liberty, and Thunderbird. These datasets are employed for log-based anomaly detection experiments, and each dataset provides detailed statistical information including the number of log messages, the number of log sequences, the number of anomalies in training and test data, and the anomaly ratio.
创建时间:
2024-10-31
原始信息汇总

LogLLM: Log-based Anomaly Detection Using Large Language Models

数据集统计

数据集 # 日志消息 # 日志序列 训练数据 # 日志序列 训练数据 # 异常 训练数据 异常比率 测试数据 # 日志序列 测试数据 # 异常 测试数据 异常比率
HDFS 11,175,629 575,061 460,048 13497 2.93% 115013 3341 2.90%
BGL 4,747,963 47,135 37,708 4009 10.63% 9427 817 8.67%
Liberty 5,000,000 50,000 40000 34144 85.36% 10000 651 6.51%
Thunderbird 10,000,000 99,997 79,997 837 1.05% 20000 29 0.15%

实验结果

模型 日志解析器 HDFS 精度 HDFS 召回率 HDFS F1 BGL 精度 BGL 召回率 BGL F1 Liberty 精度 Liberty 召回率 Liberty F1 Thunderbird 精度 Thunderbird 召回率 Thunderbird F1 平均 F1
DeepLog 0.835 0.994 0.908 0.166 0.988 0.285 0.751 0.855 0.800 0.017 0.963 0.033 0.506
LogAnomaly 0.886 0.893 0.966 0.176 0.985 0.299 0.684 0.876 0.768 0.025 0.963 0.050 0.521
PLELog 0.893 0.979 0.934 0.595 0.880 0.710 0.795 0.874 0.832 0.826 0.704 0.760 0.809
FastLogAD 0.721 0.893 0.798 0.167 1.000 0.287 0.151 0.999 0.263 0.008 0.931 0.017 0.341
LogBERT 0.989 0.614 0.758 0.165 0.989 0.283 0.909 0.615 0.734 0.143 0.500 0.222 0.499
LogRobust 0.961 1.000 0.980 0.696 0.968 0.810 0.695 0.979 0.813 0.318 1.000 0.482 0.771
CNN 0.966 1.000 0.982 0.698 0.965 0.810 0.580 0.914 0.709 0.900 0.670 0.766 0.817
NeuralLog 0.971 0.988 0.979 0.792 0.884 0.835 0.875 0.926 0.900 0.794 0.931 0.857 0.893
RAPID 1.000 0.859 0.924 0.874 0.399 0.548 0.911 0.611 0.732 0.200 0.207 0.203 0.602
LogLLM 0.994 1.000 0.997 0.861 0.979 0.916 0.992 0.926 0.958 0.966 0.966 0.966 0.959
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于大规模日志数据,涵盖了HDFS、BGL、Liberty和Thunderbird四个系统。数据集通过滑动窗口和会话窗口技术,从原始日志中提取出日志序列和异常信息。具体而言,对于BGL、Thunderbird和Liberty系统,采用滑动窗口方法,设定特定的起始和结束行数以生成训练和测试数据;而对于HDFS系统,则使用会话窗口方法。生成的数据集包括日志消息、日志序列以及相应的异常标签,异常比例在不同系统中有所差异,从0.15%到85.36%不等。
特点
该数据集的主要特点在于其多样性和广泛的应用场景。首先,数据集涵盖了多种系统日志,包括分布式文件系统(HDFS)、高性能计算(BGL)、网络服务(Liberty)和邮件系统(Thunderbird),这使得数据集在不同领域的异常检测研究中具有广泛的应用价值。其次,数据集中的异常比例差异显著,从极低的0.15%到极高的85.36%,这为模型训练提供了丰富的数据分布,有助于提高模型的鲁棒性和泛化能力。此外,数据集的构建方法确保了日志序列的完整性和异常信息的准确性,为后续的实验和研究提供了可靠的基础。
使用方法
使用该数据集进行实验和研究时,首先需下载并安装所需的依赖包,并配置相应的环境。接着,用户需下载预训练的大型语言模型(如Meta-Llama-3-8B和bert-base-uncased),并根据具体的数据集(如BGL、HDFS、Liberty或Thunderbird)进行数据准备。对于BGL、Thunderbird和Liberty数据集,用户需在prepareData目录下运行sliding_window.py脚本,设定特定的起始和结束行数以生成训练和测试数据;而对于HDFS数据集,则需运行session_window.py脚本。数据准备完成后,用户可以选择直接使用预训练模型或通过train.py脚本进行模型微调。最后,通过eval.py脚本对测试数据集进行评估,以验证模型的性能。
背景与挑战
背景概述
HDFS、BGL、Liberty和Thunderbird数据集是基于日志的异常检测领域的重要资源,由多个研究机构和团队共同创建。这些数据集的核心研究问题集中在利用大规模语言模型(LLM)进行日志异常检测,旨在提高系统日志分析的准确性和效率。自创建以来,这些数据集已成为该领域研究的基础,推动了日志分析技术的发展,并对系统监控和故障诊断产生了深远影响。
当前挑战
这些数据集在构建和应用过程中面临多项挑战。首先,日志数据的规模庞大且复杂,如何高效地处理和分析这些数据是一个主要难题。其次,日志异常检测的准确性依赖于模型的精度和鲁棒性,而现有模型在不同数据集上的表现差异较大,显示出模型泛化能力的不足。此外,数据集的多样性和不均衡性也增加了模型训练和评估的复杂性,需要进一步研究和优化。
常用场景
经典使用场景
在日志异常检测领域,HDFS、BGL、Liberty和Thunderbird数据集被广泛用于训练和评估基于大型语言模型(LLM)的异常检测算法。这些数据集包含了大规模的日志消息和序列,涵盖了不同类型的系统日志,如分布式文件系统、高性能计算集群等。通过这些数据集,研究人员可以开发和验证能够自动识别系统异常行为的模型,从而提高系统的可靠性和安全性。
衍生相关工作
基于这些数据集,研究者们开发了多种日志异常检测模型,如DeepLog、LogAnomaly、PLELog等。这些模型在不同数据集上表现优异,推动了日志异常检测技术的进步。此外,这些数据集还激发了相关领域的研究,如日志数据预处理、特征工程、模型优化等,形成了丰富的研究成果和应用案例。
数据集最近研究
最新研究方向
在日志异常检测领域,基于大型语言模型(LLM)的方法正逐渐成为前沿研究的热点。HDFS、BGL、Liberty和Thunderbird等数据集的最新研究方向主要集中在利用LLM进行日志序列的异常检测。这些研究不仅提升了检测的准确性和召回率,还通过结合BERT和Meta-Llama等预训练模型,显著提高了模型的泛化能力和处理效率。此外,这些方法在实际应用中展示了强大的适应性和鲁棒性,为大规模系统日志分析提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作