five

SMD数据集|异常检测数据集|时间序列分析数据集

收藏
github2023-03-20 更新2024-05-31 收录
异常检测
时间序列分析
下载链接:
https://github.com/snareli/Server-Machine-Dataset
下载链接
链接失效反馈
资源简介:
SMD数据集(Server Machine Dataset)出自论文:Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN。数据集包含5周的数据,时间粒度为1分钟,省略了时间index。数据集涉及28个不同的机器,每个机器对应一个实体,每个实体有38个维度的数据。数据总量为1411200,训练集和测试集比例为1:1,训练集无标签,测试集有标签。

The SMD dataset (Server Machine Dataset) originates from the paper: 'Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN'. The dataset encompasses five weeks of data with a time granularity of one minute, omitting the time index. It involves 28 distinct machines, each corresponding to an entity with 38 dimensions of data. The total data volume amounts to 1,411,200, with a 1:1 ratio between the training and test sets. The training set is unlabeled, whereas the test set is labeled.
创建时间:
2023-03-20
原始信息汇总

SMD数据集概述

数据集来源

  • 论文出处:Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN
  • 收集者:Netman

数据集详情

  • 名称:Server Machine Dataset (SMD)
  • 数据周期:5周
  • 时间粒度:1分钟(数据中时间index省略)
  • 实体数量:28个机器,对应28个实体
  • 数据维度:每个实体有38维度的数据,每个维度代表机器的metric
  • 数据总量:57246028,实际数据量1411200

数据集结构

  • 训练集与测试集比例:1:1
  • 训练集特性:无label
  • 测试集特性:有label,用于标记是否为异常点
  • 文件命名规则:machine-x-y.txt,其中x代表组,y是组里的index,每个文件代表一个具体的机器即实体
  • 文件分布
    • 训练集:数据集的前半部分
    • 测试集:数据集的后半部分
    • 测试集标签:test_label,用于标记测试集中的异常点
AI搜集汇总
数据集介绍
main_image_url
构建方式
SMD数据集构建于服务器机器的多变量时间序列数据,涵盖了28台不同机器的38个维度指标,时间跨度为5周,时间粒度为1分钟。数据分为训练集和测试集,比例为1:1。训练集不包含标签,而测试集则附有异常检测的标签。数据通过机器分组和索引进行组织,每台机器的数据存储于独立的文本文件中,便于后续的分析和处理。
特点
SMD数据集的特点在于其多维度和高时间分辨率,每台机器的38个维度指标提供了丰富的特征信息,适用于复杂的多变量时间序列分析。数据集的时间跨度和粒度使其能够捕捉到机器运行中的细微变化,为异常检测提供了坚实的基础。训练集和测试集的明确划分以及测试集的标签信息,使得该数据集非常适合用于监督学习和无监督学习的模型训练与评估。
使用方法
使用SMD数据集时,首先需要加载训练集和测试集的数据文件。训练集用于模型的训练,而测试集及其标签则用于模型的验证和评估。由于数据集已经按照机器和时间进行了组织,用户可以直接针对每台机器的数据进行单独分析,或者将所有数据整合进行全局分析。通过对比模型在测试集上的预测结果与标签,可以评估模型的异常检测性能。
背景与挑战
背景概述
SMD数据集(Server Machine Dataset)是由NetMan团队在2018年提出的,主要用于多变量时间序列异常检测的研究。该数据集源自论文《Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN》,旨在通过随机递归神经网络(Stochastic RNN)提升多变量时间序列异常检测的鲁棒性。数据集包含28台服务器的监控数据,每台服务器有38个维度的指标,时间跨度为5周,时间粒度为1分钟。SMD数据集在异常检测领域具有重要影响力,为研究者提供了一个标准化的基准,推动了多变量时间序列分析技术的发展。
当前挑战
SMD数据集在解决多变量时间序列异常检测问题时面临的主要挑战包括:1) 数据的高维性和复杂性,38个维度的指标使得模型需要处理大量的特征,增加了计算和建模的难度;2) 异常点的稀疏性,异常事件在时间序列中出现的频率较低,导致模型在训练过程中难以捕捉到足够的异常样本;3) 数据的时间依赖性,时间序列数据具有强烈的时间相关性,模型需要能够有效捕捉时间序列中的长期依赖关系。在构建过程中,研究人员还需处理数据采集的噪声、数据缺失等问题,确保数据质量。这些挑战共同构成了SMD数据集在异常检测领域的重要研究难点。
常用场景
经典使用场景
SMD数据集广泛应用于多变量时间序列的异常检测研究。其高维度和精细的时间粒度使其成为评估和开发复杂异常检测算法的理想选择。研究者常利用该数据集来测试模型在真实世界服务器环境中的表现,特别是在处理高维数据流和识别罕见异常模式方面的能力。
解决学术问题
SMD数据集解决了多变量时间序列异常检测中的关键问题,如高维数据处理、时间依赖性建模以及异常模式的精确识别。通过提供大量真实世界服务器数据,该数据集帮助研究者开发出更鲁棒的算法,能够有效区分正常操作与异常行为,从而提升系统的稳定性和安全性。
衍生相关工作
基于SMD数据集,研究者们开发了多种先进的异常检测模型,如基于随机递归神经网络(Stochastic RNN)的方法。这些模型不仅提高了异常检测的准确性,还增强了模型对噪声和异常数据的鲁棒性。此外,该数据集还促进了多变量时间序列分析领域的研究,推动了相关算法在实际工业环境中的应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

OpenStreetMap (OSM)

OpenStreetMap (OSM) 是一个由志愿者创建和维护的全球性地图数据集。它包含了详细的地理信息,如道路、建筑物、水体、公园等。数据集以开放数据的形式提供,允许用户自由使用、修改和分享。

www.openstreetmap.org 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录