five

Loghub

收藏
arXiv2023-09-13 更新2024-06-21 收录
下载链接:
https://github.com/logpai/loghub
下载链接
链接失效反馈
官方服务:
资源简介:
Loghub是由香港中文大学开发的一个大型系统日志数据集,包含19个真实世界的日志数据集,涵盖分布式系统、超级计算机、操作系统、移动系统、服务器应用和独立软件等多个领域。这些数据集总计约77GB,旨在支持AI驱动的日志分析研究。Loghub不仅提供了丰富的日志数据,还支持多种日志分析任务,如异常检测、日志解析和日志压缩等,为学术界和工业界的研究人员提供了宝贵的资源。

Loghub is a large-scale system log dataset developed by The Chinese University of Hong Kong. It contains 19 real-world log datasets spanning multiple domains including distributed systems, supercomputers, operating systems, mobile systems, server applications and standalone software. With a total size of approximately 77 GB, these datasets are designed to support AI-driven log analysis research. Loghub not only provides abundant log data, but also supports various log analysis tasks such as anomaly detection, log parsing and log compression, serving as a valuable resource for researchers from both academia and industry.
提供机构:
香港中文大学
创建时间:
2020-08-15
搜集汇总
数据集介绍
main_image_url
构建方式
Loghub 数据集的构建过程涉及从各种真实世界软件系统中收集和整理系统日志。这些系统涵盖了分布式系统、超级计算机、操作系统、移动系统、服务器应用程序和独立软件等多个领域。数据集收集了19个不同的日志数据集,总数据量超过77GB。为了确保数据的质量和多样性,一些数据集是直接从生产环境中获取的,而另一些则是从实验室环境中收集的。在可能的情况下,这些日志数据未经清洗、匿名化或修改,保留了原始状态。此外,Loghub 中包含的6个数据集带有标签,可用于异常检测和重复问题识别等特定日志分析任务。
特点
Loghub 数据集具有以下特点:首先,数据集规模庞大,包含了来自不同类型软件系统的日志数据,总数据量超过77GB,能够满足研究人员对大规模数据的需求。其次,数据集类型丰富,涵盖了分布式系统、超级计算机、操作系统、移动系统、服务器应用程序和独立软件等多个领域,为不同研究场景提供了多样化的选择。第三,数据集质量高,一些数据集直接来自生产环境,保留了原始状态,真实反映了软件系统的运行情况。最后,数据集易于使用,Loghub 提供了详细的文档和代码示例,方便研究人员快速上手和使用。
使用方法
Loghub 数据集可用于多种日志分析任务,包括日志解析、日志压缩、异常检测和重复问题识别等。使用Loghub 数据集进行日志分析时,首先需要选择合适的数据集,并根据任务需求进行预处理。例如,对于日志解析任务,需要将原始日志数据转换为结构化的事件序列;对于日志压缩任务,需要选择合适的压缩算法并设置相关参数。完成预处理后,即可使用各种日志分析工具和方法进行实验和分析。此外,Loghub 还提供了基准测试结果,帮助研究人员评估不同方法和工具的性能,并指导未来的研究方向。
背景与挑战
背景概述
系统日志在软件开发和维护中扮演着至关重要的角色,它们记录了丰富的运行时信息。然而,随着软件规模和复杂性的增加,系统日志的体量也呈现出爆炸式增长。为了高效有效地处理这些海量的日志,研究人员专注于开发智能和自动化的日志分析技术。然而,由于缺乏公开的日志数据集和基于它们的开放基准测试,只有少数技术能够在工业界成功部署。为了填补这一重要空白,促进基于人工智能的日志分析研究,我们收集并发布了Loghub,一个大型系统日志数据集。Loghub提供了19个来自各种软件系统的真实世界日志数据集,包括分布式系统、超级计算机、操作系统、移动系统、服务器应用程序和独立软件。截至本文撰写时,Loghub数据集已被来自工业界和学术界的数百个组织总共下载了约90,000次。Loghub数据集可在https://github.com/logpai/loghub获得。
当前挑战
Loghub数据集面临的挑战包括:1)所解决的领域问题的挑战,例如:Loghub数据集解决的领域问题是基于人工智能的日志分析;2)构建过程中所遇到的挑战。具体挑战包括:1)缺乏公开的日志数据集,导致研究人员难以评估和比较不同日志分析技术的有效性;2)缺乏开放的基准测试,导致研究人员难以衡量不同日志分析技术的性能;3)不同类型的日志数据具有不同的结构和特征,需要开发更通用的日志分析技术;4)随着软件的更新和演变,日志数据也会发生变化,需要开发能够适应这种变化的日志分析技术。
常用场景
经典使用场景
Loghub 数据集为 AI 驱动的日志分析提供了丰富的资源,其经典使用场景包括日志解析、日志压缩、异常检测和重复问题识别。日志解析将非结构化的日志消息转换为结构化的系统事件,为后续的日志分析任务提供基础。日志压缩则针对日志数据的特性,实现高效且无损的压缩,降低存储成本。异常检测通过分析系统运行时日志,识别潜在的异常行为,提高系统可靠性。重复问题识别则帮助开发者高效地处理用户报告的操作问题,减少不必要的重复工作。
解决学术问题
Loghub 数据集解决了 AI 驱动日志分析中缺乏公共日志数据集和开放基准测试的问题。该数据集包含了来自分布式系统、超级计算机、操作系统、移动系统、服务器应用程序和独立软件等广泛软件系统的 19 个真实世界日志数据集,总数据量超过 77GB。其中 6 个数据集带有标签,可用于异常检测和重复问题识别等研究。Loghub 数据集的发布为研究人员和从业者提供了一个开放基准测试系统,促进了 AI 驱动日志分析领域的研究和实践。
衍生相关工作
Loghub 数据集的发布衍生了大量的相关研究工作。例如,研究人员基于 Loghub 数据集,提出了多种高效的日志解析算法、日志压缩算法和异常检测算法。此外,Loghub 数据集还被用于评估和比较现有的日志分析工具和平台,推动日志分析技术的发展。Loghub 数据集的发布为 AI 驱动日志分析领域的研究和实践提供了重要的数据基础,推动了相关技术的发展和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作