five

LEMMA-RCA

收藏
github2024-06-11 更新2024-06-12 收录
下载链接:
https://github.com/KnowledgeDiscovery/rca_baselines
下载链接
链接失效反馈
资源简介:
LEMMA-RCA是一个包含多种真实系统故障的多模态多领域数据集,旨在促进未来在根因分析(RCA)领域的研究。该数据集涵盖IT运营(产品评论和云计算)和OT运营(水处理/分配)两个领域,每个领域包含两个数据集。数据集中的每个数据集都包含从真实世界场景模拟的各种系统故障。LEMMA-RCA数据集通过八种因果学习基线在四种设置(在线/离线,单模态/多模态数据)中进行评估。

LEMMA-RCA is a multimodal and multidisciplinary dataset encompassing a variety of real-world system failures, designed to facilitate future research in the field of Root Cause Analysis (RCA). This dataset spans two domains: IT operations (product reviews and cloud computing) and OT operations (water treatment/distribution), with each domain containing two datasets. Each dataset within LEMMA-RCA includes various system failures simulated from real-world scenarios. The LEMMA-RCA dataset is evaluated through eight causal learning baselines across four settings (online/offline, unimodal/multimodal data).
创建时间:
2024-05-21
原始信息汇总

数据集概述

名称: LEMMA-RCA

描述: LEMMA-RCA是一个多模态、多领域的数据集,用于支持根因分析(RCA)的研究。该数据集包含多种真实系统故障,覆盖微服务和水利处理/分配系统等实际应用场景。

数据集内容:

  • 系统故障: 每个数据集包含从真实世界场景模拟的各种系统故障。
  • 数据版本: 提供原始数据和预处理数据两种版本。
    • 原始数据: 包含所有json文件,用户需自行提取指标数据、日志数据和跟踪数据。
    • 预处理数据: 已提取每个pod的指标数据和非结构化日志数据,用户可使用提供的代码进一步处理日志数据。

数据集域:

  • IT Operations: 包括产品评论和云计算。
  • OT Operations: 包括水利处理/分配。

数据集版本:

  • 产品评论: 提供原始数据和预处理数据。
  • 云计算: 提供原始数据和预处理数据。

数据集评估:

  • 使用八种因果学习基准在四种设置(在线/离线,单模态/多模态数据)下评估。

数据集下载:

  • 数据集托管在Huggingface,详细数据统计可在Lemma-RCA网页查看。

数据集使用指南:

  • 提供详细的评估指南,包括数据下载、预处理步骤和性能评估方法。

许可证:

  • 数据集和代码发布在CC BY-NC 4.0国际许可证下,不可用于商业目的。

数据集使用步骤

  1. 下载数据: 根据需求选择下载原始数据或预处理数据。
  2. 数据预处理: 使用提供的代码进行日志数据的预处理。
  3. 数据解析: 使用Drain解析节点和pod级别的日志信息。
  4. 特征提取: 提取日志频率等特征。
  5. 性能评估: 使用FastPC等方法评估特定案例的性能。
  6. 结果检查: 结果存储在csv文件中,根因分析结果可在下载的预处理数据文件夹中找到。

引用信息

若在研究中使用LEMMA-RCA数据集,请引用相关论文。

AI搜集汇总
数据集介绍
main_image_url
构建方式
LEMMA-RCA数据集的构建基于对真实系统故障的模拟,涵盖了微服务和供水/分配系统等多个领域。数据集包括原始数据和预处理数据两种版本。原始数据版本提供了包括度量数据、日志数据和跟踪数据在内的完整信息,用户可根据需求自行提取和预处理。预处理数据版本则已经提取了度量数据和非结构化日志数据,并提供了相应的预处理代码,方便用户直接使用或进一步处理。
使用方法
使用LEMMA-RCA数据集时,用户可以选择下载原始数据或预处理数据。对于原始数据,用户需要自行进行数据提取和预处理;而对于预处理数据,用户可以直接使用或根据提供的代码进一步处理。数据集还提供了详细的评估指南,用户可以按照步骤下载特定案例的数据,使用FastPC等基线方法进行性能评估,并查看结果。
背景与挑战
背景概述
LEMMA-RCA数据集是由Lecheng Zheng等研究人员于2024年创建,旨在通过多模态数据集促进根因分析(RCA)领域的研究。该数据集涵盖了微服务和供水系统等多个真实应用场景,提供了丰富的系统故障模拟数据。LEMMA-RCA不仅为研究人员提供了原始数据和预处理数据,还通过统一评估框架支持多种因果学习基线的测试,极大地推动了RCA技术的发展。
当前挑战
LEMMA-RCA数据集在构建过程中面临多重挑战。首先,多模态数据的整合与处理需要高度专业化的技术,以确保数据的一致性和可用性。其次,不同领域(如IT和OT)的数据特征差异显著,如何设计通用的预处理和分析方法是一大难题。此外,数据集的评估需要跨领域的基线方法,这对算法的选择和优化提出了更高的要求。
常用场景
经典使用场景
LEMMA-RCA数据集的经典使用场景主要集中在根因分析(RCA)领域,通过分析系统监控数据来识别系统故障的根本原因。该数据集包含了多模态数据,涵盖了微服务系统和供水/分配系统等多个实际应用场景。研究者可以利用这些数据进行因果学习,评估不同基线方法在单模态和多模态数据上的表现,从而推动RCA技术的进步。
解决学术问题
LEMMA-RCA数据集解决了根因分析领域中常见的学术研究问题,如多模态数据融合、因果关系识别和系统故障预测。通过提供真实系统故障的模拟数据,该数据集为研究者提供了一个标准化的评估平台,有助于推动因果学习和故障诊断技术的发展。其意义在于促进了跨学科研究,提升了系统可靠性和故障响应效率。
实际应用
在实际应用中,LEMMA-RCA数据集被广泛用于IT和OT(操作技术)领域的根因分析。例如,在微服务架构中,该数据集可以帮助识别导致服务中断的根本原因,从而优化系统性能。在供水/分配系统中,通过分析监控数据,可以快速定位设备故障,提高系统的稳定性和效率。这些应用显著提升了复杂系统的运维水平和故障处理能力。
数据集最近研究
最新研究方向
在根因分析(RCA)领域,LEMMA-RCA数据集的最新研究方向主要集中在多模态数据融合与跨领域应用。研究者们致力于通过整合微服务系统中的度量数据、日志数据和追踪数据,提升故障检测的准确性和效率。此外,LEMMA-RCA数据集的跨领域特性,如应用于水处理和分配系统,为跨行业故障分析提供了新的视角和方法。这些研究不仅推动了RCA技术的前沿发展,也为实际系统故障的快速定位和解决提供了有力支持。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作