five

HDFS, BGL, Liberty, Thunderbird|日志分析数据集|异常检测数据集

收藏
github2024-11-25 更新2024-11-28 收录
日志分析
异常检测
下载链接:
https://github.com/guanwei49/LogLLM
下载链接
链接失效反馈
资源简介:
该仓库包含四个数据集:HDFS、BGL、Liberty和Thunderbird。这些数据集用于基于日志的异常检测实验,每个数据集都提供了日志消息数量、日志序列数量、训练和测试数据中的异常数量及异常比例等详细统计信息。
创建时间:
2024-10-31
原始信息汇总

LogLLM: Log-based Anomaly Detection Using Large Language Models

数据集统计

数据集 # 日志消息 # 日志序列 训练数据 # 日志序列 训练数据 # 异常 训练数据 异常比率 测试数据 # 日志序列 测试数据 # 异常 测试数据 异常比率
HDFS 11,175,629 575,061 460,048 13497 2.93% 115013 3341 2.90%
BGL 4,747,963 47,135 37,708 4009 10.63% 9427 817 8.67%
Liberty 5,000,000 50,000 40000 34144 85.36% 10000 651 6.51%
Thunderbird 10,000,000 99,997 79,997 837 1.05% 20000 29 0.15%

实验结果

模型 日志解析器 HDFS 精度 HDFS 召回率 HDFS F1 BGL 精度 BGL 召回率 BGL F1 Liberty 精度 Liberty 召回率 Liberty F1 Thunderbird 精度 Thunderbird 召回率 Thunderbird F1 平均 F1
DeepLog 0.835 0.994 0.908 0.166 0.988 0.285 0.751 0.855 0.800 0.017 0.963 0.033 0.506
LogAnomaly 0.886 0.893 0.966 0.176 0.985 0.299 0.684 0.876 0.768 0.025 0.963 0.050 0.521
PLELog 0.893 0.979 0.934 0.595 0.880 0.710 0.795 0.874 0.832 0.826 0.704 0.760 0.809
FastLogAD 0.721 0.893 0.798 0.167 1.000 0.287 0.151 0.999 0.263 0.008 0.931 0.017 0.341
LogBERT 0.989 0.614 0.758 0.165 0.989 0.283 0.909 0.615 0.734 0.143 0.500 0.222 0.499
LogRobust 0.961 1.000 0.980 0.696 0.968 0.810 0.695 0.979 0.813 0.318 1.000 0.482 0.771
CNN 0.966 1.000 0.982 0.698 0.965 0.810 0.580 0.914 0.709 0.900 0.670 0.766 0.817
NeuralLog 0.971 0.988 0.979 0.792 0.884 0.835 0.875 0.926 0.900 0.794 0.931 0.857 0.893
RAPID 1.000 0.859 0.924 0.874 0.399 0.548 0.911 0.611 0.732 0.200 0.207 0.203 0.602
LogLLM 0.994 1.000 0.997 0.861 0.979 0.916 0.992 0.926 0.958 0.966 0.966 0.966 0.959
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于大规模日志数据,涵盖了HDFS、BGL、Liberty和Thunderbird四个系统。数据集通过滑动窗口和会话窗口技术,从原始日志中提取出日志序列和异常信息。具体而言,对于BGL、Thunderbird和Liberty系统,采用滑动窗口方法,设定特定的起始和结束行数以生成训练和测试数据;而对于HDFS系统,则使用会话窗口方法。生成的数据集包括日志消息、日志序列以及相应的异常标签,异常比例在不同系统中有所差异,从0.15%到85.36%不等。
特点
该数据集的主要特点在于其多样性和广泛的应用场景。首先,数据集涵盖了多种系统日志,包括分布式文件系统(HDFS)、高性能计算(BGL)、网络服务(Liberty)和邮件系统(Thunderbird),这使得数据集在不同领域的异常检测研究中具有广泛的应用价值。其次,数据集中的异常比例差异显著,从极低的0.15%到极高的85.36%,这为模型训练提供了丰富的数据分布,有助于提高模型的鲁棒性和泛化能力。此外,数据集的构建方法确保了日志序列的完整性和异常信息的准确性,为后续的实验和研究提供了可靠的基础。
使用方法
使用该数据集进行实验和研究时,首先需下载并安装所需的依赖包,并配置相应的环境。接着,用户需下载预训练的大型语言模型(如Meta-Llama-3-8B和bert-base-uncased),并根据具体的数据集(如BGL、HDFS、Liberty或Thunderbird)进行数据准备。对于BGL、Thunderbird和Liberty数据集,用户需在prepareData目录下运行sliding_window.py脚本,设定特定的起始和结束行数以生成训练和测试数据;而对于HDFS数据集,则需运行session_window.py脚本。数据准备完成后,用户可以选择直接使用预训练模型或通过train.py脚本进行模型微调。最后,通过eval.py脚本对测试数据集进行评估,以验证模型的性能。
背景与挑战
背景概述
HDFS、BGL、Liberty和Thunderbird数据集是基于日志的异常检测领域的重要资源,由多个研究机构和团队共同创建。这些数据集的核心研究问题集中在利用大规模语言模型(LLM)进行日志异常检测,旨在提高系统日志分析的准确性和效率。自创建以来,这些数据集已成为该领域研究的基础,推动了日志分析技术的发展,并对系统监控和故障诊断产生了深远影响。
当前挑战
这些数据集在构建和应用过程中面临多项挑战。首先,日志数据的规模庞大且复杂,如何高效地处理和分析这些数据是一个主要难题。其次,日志异常检测的准确性依赖于模型的精度和鲁棒性,而现有模型在不同数据集上的表现差异较大,显示出模型泛化能力的不足。此外,数据集的多样性和不均衡性也增加了模型训练和评估的复杂性,需要进一步研究和优化。
常用场景
经典使用场景
在日志异常检测领域,HDFS、BGL、Liberty和Thunderbird数据集被广泛用于训练和评估基于大型语言模型(LLM)的异常检测算法。这些数据集包含了大规模的日志消息和序列,涵盖了不同类型的系统日志,如分布式文件系统、高性能计算集群等。通过这些数据集,研究人员可以开发和验证能够自动识别系统异常行为的模型,从而提高系统的可靠性和安全性。
衍生相关工作
基于这些数据集,研究者们开发了多种日志异常检测模型,如DeepLog、LogAnomaly、PLELog等。这些模型在不同数据集上表现优异,推动了日志异常检测技术的进步。此外,这些数据集还激发了相关领域的研究,如日志数据预处理、特征工程、模型优化等,形成了丰富的研究成果和应用案例。
数据集最近研究
最新研究方向
在日志异常检测领域,基于大型语言模型(LLM)的方法正逐渐成为前沿研究的热点。HDFS、BGL、Liberty和Thunderbird等数据集的最新研究方向主要集中在利用LLM进行日志序列的异常检测。这些研究不仅提升了检测的准确性和召回率,还通过结合BERT和Meta-Llama等预训练模型,显著提高了模型的泛化能力和处理效率。此外,这些方法在实际应用中展示了强大的适应性和鲁棒性,为大规模系统日志分析提供了新的技术路径。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录