Dataset for the paper Anomaly Detection in Large-Scale Cloud Systems: An Industry Case and Dataset

github2025-01-04 更新2025-01-06 收录

下载链接：

https://github.com/msi-ru-cs/icse-seip2025-anomaly-detector-public

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于论文《大规模云系统中的异常检测：一个工业案例和数据集》的研究，包含用于异常检测的云系统数据。

This dataset is utilized for the research presented in the paper titled *Anomaly Detection in Large-Scale Cloud Systems: An Industrial Case and Dataset*, and it contains cloud system data applicable to anomaly detection tasks.

创建时间：

2025-01-04

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Anomaly Detection in Large-Scale Cloud Systems
数据集DOI: 10.5281/zenodo.14062900
相关论文: arXiv:2411.09047
数据集作者: Islam, M. S., Rakha, M. S., Pourmajidi, W., Sivaloganathan, J., Steinbacher, J., & Miranskyy, A. (2024)
数据集版本: v1.0

数据集内容

数据文件:
- pivoted_data_all.parquet: 经过处理的输入数据文件，包含5XX错误特征。
- anomaly_windows.csv: 异常窗口标签文件，用于标记异常时间段。

数据集用途

主要用途: 用于大规模云系统中的异常检测研究。
应用场景: 通过Autoencoders（ANN和GRU模型）进行异常检测，并使用NAB评分进行评估。

数据集结构

目录结构: plaintext anomaly-detector/ ├── conf/ # 配置文件 ├── src/ # 源代码文件 ├── data/ │ ├── massaged/ # 处理后的输入数据 │ ├── labels/ # 异常窗口标签 ├── results/ │ ├── model_experiments/ # 实验结果 ├── trained_models/ # 保存的训练模型

数据集获取

数据下载:
- anomaly_windows.csv: 下载链接
- pivoted_data_all.parquet: 下载链接

数据集使用说明

环境要求:
- Python版本: 3.11.0
- 操作系统: Windows, macOS, 或 Linux
- 工具: Python, pip, 终端或命令行界面
设置步骤:
1. 克隆仓库并进入项目目录。
2. 验证Python版本为3.11.0。
3. 创建并激活虚拟环境。
4. 安装依赖库。
5. 运行测试脚本以确保环境设置正确。

数据集引用

引用格式: bibtex @article{islam2024anomaly, title={Anomaly Detection in Large-Scale Cloud Systems: An Industry Case and Dataset}, author={Islam, Mohammad Saiful and Rakha, Mohamed Sami and Pourmajidi, William and Sivaloganathan, Janakan and Steinbacher, John and Miranskyy, Andriy}, journal={arXiv preprint arXiv:2411.09047}, year={2024}, doi={10.48550/arXiv.2411.09047} }

数据集相关脚本

主要脚本:
- run_experiment__multi_models_GRU_ANN.py: 主脚本，用于协调异常检测实验。
- preprocessing.py: 数据预处理脚本。
- anomaly_likelihood.py: 计算异常可能性的脚本。
- nab_scoring.py: 实现NAB评分的脚本。
- plotting_module.py: 结果可视化脚本。

数据集实验结果

实验结果文件:
- unweighted__<Model>_anomaly_detection_results.csv: 未加权的异常检测实验结果。
- unweighted__<Model>_anomaly_detection_results.png: 异常检测结果的可视化图表。
- unweighted__<Model>_results.csv: 未加权实验的汇总结果。

数据集配置

配置文件: config.yaml
- 模型类型: 可配置为ANN或GRU。
- NAB评分配置: 可配置为标准评分或自定义评分（如reward_fn）。

数据集执行

执行命令: bash python src/run_experiment__multi_models_GRU_ANN.py

可通过命令行参数配置模型类型和NAB评分配置。

数据集注意事项

Python版本: 必须使用Python 3.11.0以避免兼容性问题。
依赖管理: 保持requirements.txt文件更新以确保环境一致性。

搜集汇总

数据集介绍

构建方式

该数据集构建于大规模云系统的异常检测研究背景之下，旨在为工业界提供真实场景下的异常检测案例。数据集的构建过程包括从实际云系统中收集的5XX错误日志数据，并通过时间序列分析技术进行预处理。数据经过清洗、去噪和特征提取，最终形成可用于模型训练的标准化数据集。此外，数据集还包含了异常窗口标签，这些标签通过人工标注和自动化工具结合的方式生成，确保了数据的准确性和可靠性。

使用方法

使用该数据集时，研究人员首先需要配置Python 3.11.0环境，并安装所需的依赖库。数据集的使用流程包括数据加载、预处理、模型训练和评估等步骤。通过提供的脚本，用户可以灵活选择不同的模型（如ANN或GRU）进行实验，并利用NAB评分系统对模型性能进行评估。数据集的使用方法详细记录在项目的README文件中，确保了实验的可重复性和一致性。

背景与挑战

背景概述

该数据集由Mohammad Saiful Islam等人于2024年发布，旨在支持大规模云系统中的异常检测研究。数据集的核心研究问题聚焦于如何有效识别和预测云系统中的异常行为，尤其是在面对海量数据和复杂系统架构时。该数据集基于真实工业场景，提供了丰富的异常窗口标签和预处理后的数据，为研究人员提供了一个可靠的基准。其发布不仅推动了云系统异常检测领域的发展，还为工业界提供了实用的解决方案，具有重要的学术和工程价值。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，云系统中的异常检测问题本身具有高度复杂性，异常行为往往与正常行为难以区分，且数据维度高、噪声多，导致模型训练和评估难度较大。其次，在数据集的构建过程中，研究人员需要处理大规模、高维度的原始数据，并进行精细的预处理和标注工作，以确保数据的质量和一致性。此外，如何设计有效的评估指标（如NAB评分）以准确反映模型的性能，也是构建过程中的一大挑战。

常用场景

经典使用场景

在大规模云系统中，异常检测是确保系统稳定性和可靠性的关键任务。该数据集通过提供真实的行业案例数据，支持研究人员和工程师使用自动编码器（如ANN和GRU模型）进行异常检测实验。经典使用场景包括对云系统中5XX错误的监控与分析，帮助识别潜在的系统故障和性能瓶颈。

解决学术问题

该数据集解决了大规模云系统中异常检测的若干学术问题，特别是在缺乏高质量标注数据的情况下，如何有效训练和评估异常检测模型。通过提供详细的异常窗口标签和预处理数据，该数据集为研究者提供了一个标准化的基准，推动了基于深度学习的异常检测算法的研究进展。

实际应用

在实际应用中，该数据集被广泛用于云服务提供商的运维团队中，帮助实时监控系统状态并快速响应异常事件。通过结合NAB评分系统，运维人员可以量化异常检测模型的性能，优化系统配置，从而减少服务中断时间并提高用户体验。

数据集最近研究