MultiLog-Dataset

github2024-06-06 更新2024-06-14 收录

下载链接：

https://github.com/AIOps-LogDB/MultiLog-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于集群异常检测，包含多种系统和服务器异常情况，如CPU饱和、IO饱和、内存饱和等，以及数据库相关的异常，如伴随的慢查询、导出操作等。

This dataset is primarily utilized for cluster anomaly detection, encompassing a variety of system and server anomalies such as CPU saturation, IO saturation, memory saturation, as well as database-related anomalies including associated slow queries and export operations.

创建时间：

2024-06-04

原始信息汇总

数据集概述：MultiLog

数据集下载链接

Single2Single: https://zenodo.org/records/11496301/files/Single2Single.tar.gz
Single2Multi: https://zenodo.org/records/11496255/files/Single2Multi.tar.gz
Multi2Single: https://zenodo.org/records/11483841/files/Multi2Single.tar.gz
Multi2Multi: https://zenodo.org/records/11468477/files/Multi2Multi.tar.gz

数据集用途

该数据集主要用于集群异常检测。

异常类型及描述

No.	异常类型	原因类型	描述
1	CPU饱和	系统	CPU计算资源耗尽。
2	IO饱和	系统	I/O带宽被大量占用。
3	内存饱和	系统	内存资源不足。
4	网络带宽限制	系统	节点间网络带宽受限。
5	网络分区出现	系统	节点间发生网络分区。
6	机器宕机	系统	应用运行时服务器宕机。
7	伴随慢查询	数据库	查询负载过大。
8	导出操作	数据库	数据备份至外部源。
9	导入操作	数据库	从外部源导入数据。
10	资源密集型压缩	数据库	压缩任务消耗大量系统资源。
11	过于频繁的磁盘刷新	数据库	刷新操作间隔短导致频繁磁盘写入。

搜集汇总

数据集介绍

构建方式

在构建MultiLog-Dataset时，研究者精心设计了多种异常场景，涵盖了系统级和数据库级的多种故障类型。通过模拟CPU饱和、IO饱和、内存饱和、网络带宽限制、网络分区、机器宕机等系统异常，以及伴随的慢查询、导出操作、导入操作、资源密集型压缩和过于频繁的磁盘刷新等数据库异常，数据集得以全面反映分布式数据库在实际运行中可能遇到的各种挑战。这些异常场景的模拟不仅确保了数据集的多样性和真实性，还为后续的异常检测算法提供了丰富的训练和测试样本。

特点

MultiLog-Dataset的显著特点在于其多维度和多层次的异常覆盖。数据集不仅包含了系统级的资源饱和和网络问题，还深入到数据库操作层面的异常，如查询负载过大和数据导入导出操作。这种多层次的异常设计使得该数据集在评估和开发分布式数据库的异常检测算法时具有极高的实用价值。此外，数据集的构建过程中严格模拟了实际运行环境，确保了数据的可靠性和真实性，为研究者提供了一个理想的实验平台。

使用方法

使用MultiLog-Dataset进行研究时，研究者首先需根据研究目的选择合适的子数据集，如Single2Single、Single2Multi、Multi2Single或Multi2Multi。随后，可以通过加载和解析这些数据集，提取出所需的异常样本和正常运行样本。利用这些样本，研究者可以训练和验证各种异常检测算法，评估其在不同异常场景下的表现。此外，数据集还提供了详细的异常描述和原因类型，有助于研究者深入分析算法的性能和局限性，从而进行针对性的优化和改进。

背景与挑战

背景概述

MultiLog-Dataset是由一群专注于分布式数据库异常检测的研究人员创建的，旨在解决多变量日志数据中的异常检测问题。该数据集的创建时间可追溯至其首次发布于Zenodo平台的时间。主要研究人员或机构通过模拟多种系统与数据库层面的异常情况，如CPU饱和、IO饱和、内存不足等，构建了一个包含丰富异常类型的数据集。这些异常不仅涵盖了系统层面的资源耗尽问题，还包括数据库操作如慢查询、数据导入导出等引起的性能问题。MultiLog-Dataset的发布，为分布式数据库的异常检测研究提供了宝贵的资源，推动了该领域的发展。

当前挑战

MultiLog-Dataset在构建过程中面临了多重挑战。首先，模拟真实世界中的系统与数据库异常需要高度的技术精确性和复杂性，确保每种异常都能准确反映实际问题。其次，数据集的多样性要求涵盖从单一节点到多节点环境的各种异常情况，这增加了数据集的复杂性和构建难度。此外，确保数据集的可用性和实用性，使其能够广泛应用于不同的异常检测算法和模型，也是一项重要挑战。最后，数据集的更新和维护，以适应不断变化的分布式数据库环境和新的异常类型，同样是一个持续的挑战。

常用场景

经典使用场景

在分布式数据库领域，MultiLog-Dataset 被广泛应用于多元日志异常检测。该数据集通过模拟多种系统及数据库层面的异常情况，如CPU饱和、IO饱和、内存饱和等，为研究人员提供了一个全面的实验平台。通过分析这些日志数据，研究者能够开发和验证新的异常检测算法，从而提高分布式数据库系统的稳定性和可靠性。

衍生相关工作

基于 MultiLog-Dataset，研究者们开展了一系列相关工作，包括但不限于改进的异常检测算法、基于机器学习的故障预测模型以及分布式数据库性能优化策略。这些工作不仅丰富了分布式数据库领域的研究内容，还为实际应用提供了更多有效的解决方案。

数据集最近研究