SMD数据集

github2023-03-20 更新2024-05-31 收录

下载链接：

https://github.com/snareli/Server-Machine-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SMD数据集(Server Machine Dataset)出自论文：Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN。数据集包含5周的数据，时间粒度为1分钟，省略了时间index。数据集涉及28个不同的机器，每个机器对应一个实体，每个实体有38个维度的数据。数据总量为1411200，训练集和测试集比例为1:1，训练集无标签，测试集有标签。

The SMD dataset (Server Machine Dataset) originates from the paper: 'Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN'. The dataset encompasses five weeks of data with a time granularity of one minute, omitting the time index. It involves 28 distinct machines, each corresponding to an entity with 38 dimensions of data. The total data volume amounts to 1,411,200, with a 1:1 ratio between the training and test sets. The training set is unlabeled, whereas the test set is labeled.

创建时间：

2023-03-20

原始信息汇总

SMD数据集概述

数据集来源

论文出处：Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN
收集者：Netman

数据集详情

名称：Server Machine Dataset (SMD)
数据周期：5周
时间粒度：1分钟（数据中时间index省略）
实体数量：28个机器，对应28个实体
数据维度：每个实体有38维度的数据，每个维度代表机器的metric
数据总量：57246028，实际数据量1411200

数据集结构

训练集与测试集比例：1:1
训练集特性：无label
测试集特性：有label，用于标记是否为异常点
文件命名规则：machine-x-y.txt，其中x代表组，y是组里的index，每个文件代表一个具体的机器即实体
文件分布：
- 训练集：数据集的前半部分
- 测试集：数据集的后半部分
- 测试集标签：test_label，用于标记测试集中的异常点

搜集汇总

数据集介绍

构建方式

SMD数据集构建于服务器机器的多变量时间序列数据，涵盖了28台不同机器的38个维度指标，时间跨度为5周，时间粒度为1分钟。数据分为训练集和测试集，比例为1:1。训练集不包含标签，而测试集则附有异常检测的标签。数据通过机器分组和索引进行组织，每台机器的数据存储于独立的文本文件中，便于后续的分析和处理。

特点

SMD数据集的特点在于其多维度和高时间分辨率，每台机器的38个维度指标提供了丰富的特征信息，适用于复杂的多变量时间序列分析。数据集的时间跨度和粒度使其能够捕捉到机器运行中的细微变化，为异常检测提供了坚实的基础。训练集和测试集的明确划分以及测试集的标签信息，使得该数据集非常适合用于监督学习和无监督学习的模型训练与评估。

使用方法

使用SMD数据集时，首先需要加载训练集和测试集的数据文件。训练集用于模型的训练，而测试集及其标签则用于模型的验证和评估。由于数据集已经按照机器和时间进行了组织，用户可以直接针对每台机器的数据进行单独分析，或者将所有数据整合进行全局分析。通过对比模型在测试集上的预测结果与标签，可以评估模型的异常检测性能。

背景与挑战

背景概述

SMD数据集（Server Machine Dataset）是由NetMan团队在2018年提出的，主要用于多变量时间序列异常检测的研究。该数据集源自论文《Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN》，旨在通过随机递归神经网络（Stochastic RNN）提升多变量时间序列异常检测的鲁棒性。数据集包含28台服务器的监控数据，每台服务器有38个维度的指标，时间跨度为5周，时间粒度为1分钟。SMD数据集在异常检测领域具有重要影响力，为研究者提供了一个标准化的基准，推动了多变量时间序列分析技术的发展。

当前挑战

SMD数据集在解决多变量时间序列异常检测问题时面临的主要挑战包括：1) 数据的高维性和复杂性，38个维度的指标使得模型需要处理大量的特征，增加了计算和建模的难度；2) 异常点的稀疏性，异常事件在时间序列中出现的频率较低，导致模型在训练过程中难以捕捉到足够的异常样本；3) 数据的时间依赖性，时间序列数据具有强烈的时间相关性，模型需要能够有效捕捉时间序列中的长期依赖关系。在构建过程中，研究人员还需处理数据采集的噪声、数据缺失等问题，确保数据质量。这些挑战共同构成了SMD数据集在异常检测领域的重要研究难点。

常用场景

经典使用场景

SMD数据集广泛应用于多变量时间序列的异常检测研究。其高维度和精细的时间粒度使其成为评估和开发复杂异常检测算法的理想选择。研究者常利用该数据集来测试模型在真实世界服务器环境中的表现，特别是在处理高维数据流和识别罕见异常模式方面的能力。

解决学术问题

SMD数据集解决了多变量时间序列异常检测中的关键问题，如高维数据处理、时间依赖性建模以及异常模式的精确识别。通过提供大量真实世界服务器数据，该数据集帮助研究者开发出更鲁棒的算法，能够有效区分正常操作与异常行为，从而提升系统的稳定性和安全性。

衍生相关工作

基于SMD数据集，研究者们开发了多种先进的异常检测模型，如基于随机递归神经网络（Stochastic RNN）的方法。这些模型不仅提高了异常检测的准确性，还增强了模型对噪声和异常数据的鲁棒性。此外，该数据集还促进了多变量时间序列分析领域的研究，推动了相关算法在实际工业环境中的应用。

以上内容由遇见数据集搜集并总结生成