pryshlyak/seasonal_time_series_for_anomaly_detection
收藏Hugging Face2024-05-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/pryshlyak/seasonal_time_series_for_anomaly_detection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含七个CSV文件,这些文件是人工生成的、有序的、带有时间戳的单值指标,涵盖了三个月的数据,按星期几划分,且没有异常。此外,还有三个CSV文件是人工生成的、有序的、带有时间戳的单值指标,但包含异常,以及两个CSV文件表示一周的数据(其中一个包含异常)。数据集基于NAB数据集生成,并修改以显示每周的季节性。数据集用于训练自编码器并进行异常检测测试。
该数据集包含七个CSV文件,这些文件是人工生成的、有序的、带有时间戳的单值指标,涵盖了三个月的数据,按星期几划分,且没有异常。此外,还有三个CSV文件是人工生成的、有序的、带有时间戳的单值指标,但包含异常,以及两个CSV文件表示一周的数据(其中一个包含异常)。数据集基于NAB数据集生成,并修改以显示每周的季节性。数据集用于训练自编码器并进行异常检测测试。
提供机构:
pryshlyak
原始信息汇总
数据集概述
数据集名称
seasonal_time_series_for_anomaly_detection
数据集内容
该数据集包含以下文件:
- 7个CSV文件,包含人工生成的、有序的、时间戳标记的单值指标,覆盖三个月,按周工作日划分,无异常。
- 3个CSV文件,包含人工生成的、有序的、时间戳标记的单值指标,包含异常。
- 2个CSV文件,包含一周的数据表示(其中一个包含异常)。
数据集结构
- 数据集包含两个主要列:
timestamp和value。 timestamp列以"%Y-%m-%d %H:%M:%S"格式表示日期,时间间隔为五分钟。value列表示正数值。- 数据集总计67.7k行,每个周工作日的CSV文件包含3745行,两个包含周数据的CSV文件各包含2017行。
数据集用途
- 用于训练和测试自动编码器,特别是在"Unsupervised anomaly detection in seasonal time series data"学士论文中。
- 用于训练的文件包括:art_monday.csv, art_tuesday.csv, art_wednesday.csv, art_thursday.csv, art_friday.csv, art_saturday.csv, art_sunday.csv, art_normal_week。
- 用于数据预测的文件包括:art_monday_collective_anomaly_down.csv, art_wednesday_collective_anomaly_up.csv, art_saturday_point_anomaly.csv, art_anomaly_week.csv。
数据集生成过程
- 日期生成于2024年1月、2月和3月。
- 值来自NAB数据集,但经过修改以显示周的季节性。
搜集汇总
数据集介绍

构建方式
该数据集以NAB基准数据集为基础,通过人工生成与改造的方式构建而成。时间戳覆盖2024年1月至3月,以五分钟为间隔生成,数值部分源自NAB数据集但经过调整以突显周内季节性模式。数据集共包含七个无异常的正常日CSV文件,以及三个带有异常标注的CSV文件,另有两个周级别表示文件(其一含异常)。正常数据用于训练,异常数据用于测试,总计约6.77万条记录,无缺失值。
特点
数据集结构简洁,仅含时间戳与数值两列,时间格式统一为'%Y-%m-%d %H:%M:%S'。其核心特色在于细分了每日与每周的周期性模式,为季节性时间序列的异常检测提供了明确的训练与测试划分。异常类型涵盖集体异常与点异常,能够支持对多种异常形态的评估。数据量适中,兼顾了实验效率与模型训练需求。
使用方法
该数据集最初设计用于自编码器的无监督异常检测训练,具体使用方式为:利用七个正常日CSV及一个正常周CSV训练自编码器,再以含集体异常或点异常的CSV文件进行预测与评估。然而,其通用结构使其可无缝适配其他异常检测方法,如基于统计或聚类的方法。用户只需按时间序列格式加载数据,并根据异常标签划分训练与测试集即可直接应用。
背景与挑战
背景概述
在时间序列分析领域,异常检测是一项核心任务,广泛应用于工业监控、金融风控和物联网运维等场景。然而,真实世界的时间序列数据往往呈现出复杂的周期性模式,例如以周为单位的季节性波动,这给传统异常检测方法带来了显著挑战。为应对这一问题,pryshlyak/seasonal_time_series_for_anomaly_detection数据集于2024年应运而生,源自一项聚焦于无监督异常检测的学士学位论文研究。该数据集由主要研究人员基于NAB数据集精心构建,旨在模拟具有明确周期性的单变量时间序列,涵盖三个月内按星期划分的每日数据。其核心研究问题在于如何利用自编码器模型,针对不同周期片段分别训练,从而有效识别周期性数据中的异常点。该数据集虽为学术研究而创建,但其设计理念为周期性时间序列的异常检测提供了标准化测试基准,对推动该领域的方法验证与比较具有潜在影响力。
当前挑战
该数据集所涉及的挑战首先体现在领域问题的特殊性上:周期性时间序列的异常检测不仅需区分正常波动与异常事件,还需精准建模以周为单位的季节性模式,避免将周期性变化误判为异常。传统全局模型难以捕捉此类细粒度周期特征,亟需分片训练策略。其次,在构建过程中,数据集面临生成真实性与可控性的平衡挑战。基于NAB数据的数值调整虽保留了现实分布特征,但人工修改可能引入伪周期或掩盖潜在噪声。此外,数据划分需确保训练集无异常、测试集包含点异常与集体异常,这对异常注入的合理性与标签一致性提出了要求。最终,数据集仅覆盖三个月时间跨度,对长周期或跨季节模式的泛化能力有限,且采样间隔为五分钟,可能无法适应更高频或更低频的检测场景。
常用场景
经典使用场景
该数据集专为季节性时间序列的异常检测任务而设计,其核心应用在于利用周期性分解策略,将一周内各天的时间序列独立建模。经典使用场景是基于无监督学习范式,训练自编码器(auto-encoder)分别对周一至周日及正常周的模式进行重构,进而通过重构误差识别异常点或异常片段。数据集提供了无异常的日常与周度序列作为训练集,以及包含集体性异常和点异常的测试集,为评估模型在周期波动中捕捉偏离行为的能力提供了标准化基准。
解决学术问题
该数据集针对时间序列异常检测中因周期性模式复杂而导致的误报率高、泛化性弱等学术难题,提出了一种按周期粒度分解建模的解决思路。通过分离不同星期几的固有波动规律,它有效缓解了全局模型难以同时适应工作日与周末差异的困境。该数据集的发布推动了无监督异常检测在季节性数据中的方法论验证,尤其为自编码器及其变体在非平稳环境下的鲁棒性研究提供了可复现的评估平台,对提升金融、运维等领域的时间序列监控理论具有重要支撑作用。
衍生相关工作
该数据集衍生的核心工作源于其本科毕业论文《Unsupervised anomaly detection in seasonal time series data》,其中提出了按周期分段训练自编码器的创新框架。后续研究可在此基础上扩展为多尺度周期分解方法,例如结合小时级或月级模式。此外,该数据集也可用于对比不同异常检测技术的性能,如孤立森林、LSTM-ED或Transformer,推动周期性时间序列中无监督算法的标准化评测。其基于NAB数据集生成的设计,还促进了跨数据集的迁移学习研究。
以上内容由遇见数据集搜集并总结生成



