Lemma-RCA-NEC/Product_Review_Original
收藏Hugging Face2025-05-17 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Lemma-RCA-NEC/Product_Review_Original
下载链接
链接失效反馈官方服务:
资源简介:
产品评论微服务数据集包含了从产品评论微服务平台收集的指标数据和日志数据,该平台涉及数百个系统实体。数据集中模拟了四种不同类型的真实故障,包括DDoS攻击、外部存储故障、节点资源争用压力测试和吵闹邻居问题。该数据集适用于根因分析、微服务系统、多模态学习、时间序列分析和日志分析等领域的研究。
The Product Review Microservice Data dataset consists of metrics and log data collected from a Product Review Microservice Platform involving hundreds of system entities. The dataset simulates four different types of real faults, including DDoS attacks, external storage failures, node resource contention stress tests, and noisy neighbor issues. It is suitable for research in root cause analysis, microservice systems, multi-modal learning, time series analysis, and log analysis.
提供机构:
Lemma-RCA-NEC
原始信息汇总
数据集概述
数据描述
- 数据来源: 产品评论微服务平台,涉及数百个系统实体。
- 数据类型: 包括指标数据和日志数据。
- 模拟故障类型: 四种真实故障,包括DDoS攻击、外部存储故障、节点资源争用压力测试和噪声邻居问题。
数据规模
- 数据大小: 100M<n<1B
任务类别
- 时间序列预测
引用
- Lecheng Zheng, Zhengzhang Chen, Dongjie Wang, Chengyuan Deng, Reon Matsuoka, and Haifeng Chen: LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis. CoRR abs/2406.05375 (2024)
许可证
- cc-by-nc-4.0: 非商业用途,禁止用于商业目的。
搜集汇总
数据集介绍

构建方式
在微服务架构日益普及的背景下,精准定位系统故障根源成为运维领域的核心挑战。Lemma-RCA-NEC/Product_Review_Original数据集正是为应对这一挑战而构建。其构建过程依托于一个真实的商品评论微服务平台,该平台涉及数百个系统实体。研究人员通过模拟四种典型的真实故障场景——包括分布式拒绝服务攻击、外部存储故障、节点资源争用压力测试以及噪声邻居问题——来收集多模态数据。这些故障场景的引入,旨在复现生产环境中复杂且相互关联的异常模式,从而为根因分析研究提供了一个高保真的实验环境。数据采集涵盖了系统指标与日志数据,确保了故障信息的全面性与多维性。
特点
该数据集的核心特点在于其多模态与多领域的融合设计。它不仅同时包含了时间序列形式的系统指标数据和文本形式的日志数据,实现了对系统状态的多角度刻画,而且其数据来源于一个规模庞大、实体众多的真实微服务系统,具有高度的现实代表性。数据集所模拟的四种故障类型,覆盖了从外部恶意攻击到内部资源异常等多个典型故障域,为开发能够跨场景泛化的根因分析模型提供了丰富的训练与测试素材。这种大规模、多模态、多故障场景的特性,使其在当前的运维人工智能研究领域中独树一帜,为探索更鲁棒、更通用的故障诊断算法奠定了坚实的数据基础。
使用方法
该数据集主要面向时间序列预测及根因分析等研究任务。使用者可首先利用其提供的多模态时间序列数据,训练或评估用于异常检测或故障预测的模型。进而,结合标注的故障发生时段与类型,研究者可以深入开发与验证能够在复杂微服务依赖图中定位故障根源的算法。数据集的结构支持将指标数据与日志数据进行关联分析,例如,通过融合时序模式与日志事件序列来提升诊断精度。在使用时,需遵循其CC-BY-NC-4.0许可协议,并注意其禁止演绎(NoDerivatives)的条款,确保在符合规范的前提下推动相关领域的学术进展。
背景与挑战
背景概述
在微服务架构日益普及的背景下,系统故障的根因分析成为保障服务可靠性的关键研究课题。Lemma-RCA-NEC/Product_Review_Original数据集由Lecheng Zheng等研究人员于2024年创建,旨在通过整合多模态数据,如时间序列指标与日志分析,来应对微服务系统中复杂故障的诊断难题。该数据集模拟了包括DDoS攻击、外部存储故障在内的多种真实故障场景,为根因分析领域提供了大规模、多领域的基准数据,推动了基于机器学习的自动化诊断方法的发展。
当前挑战
该数据集致力于解决微服务系统根因分析中的核心挑战,即如何从海量、异构的多模态数据中准确识别故障源头。构建过程中面临数据同步与对齐的困难,需确保时间序列指标与日志事件在时序上的一致性;同时,模拟真实故障场景时需平衡可控性与真实性,避免引入人为偏差。此外,多模态数据的融合与特征提取要求高效的算法设计,以应对高维度、非结构化数据的处理复杂度。
常用场景
经典使用场景
在微服务系统监控与故障诊断领域,Lemma-RCA-NEC/Product_Review_Original数据集为根因分析研究提供了关键的多模态数据支撑。该数据集整合了来自产品评论微服务平台的指标数据与日志数据,覆盖了数百个系统实体,并模拟了包括DDoS攻击、外部存储故障、节点资源争用压力测试及噪声邻居问题在内的四种真实故障类型。研究人员通常利用该数据集,结合时间序列分析与多模态学习技术,构建能够自动识别和定位系统异常根源的智能模型,从而深入探究复杂分布式环境中故障传播的动力学机制。
解决学术问题
该数据集主要致力于解决微服务架构下根因分析的若干核心学术挑战。它通过提供大规模、多模态的真实场景数据,有效应对了传统方法中因数据单一或规模不足而导致的模型泛化能力弱的问题。其意义在于为学术界建立了一个标准化的基准测试平台,使得不同根因分析算法能够在统一的、贴近实际的数据集上进行公平比较与验证,显著推动了故障诊断领域从依赖规则或单一数据源向数据驱动、多模态融合的智能化方向演进。
衍生相关工作
围绕Lemma-RCA-NEC/Product_Review_Original数据集,已衍生出一系列具有影响力的研究工作。其同名论文《LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis》系统阐述了数据集的构建理念与价值。以此为基础,后续研究广泛探索了图神经网络、时序预测与日志解析的融合方法,用于建模服务间的依赖关系与故障传播路径。这些工作不仅验证了数据集的有效性,也进一步丰富了多模态根因分析的技术体系,为构建更鲁棒、可解释的智能运维框架奠定了基础。
以上内容由遇见数据集搜集并总结生成



