A Benchmark Dataset for Time Series Anomaly Detection

github2024-03-10 更新2024-05-31 收录

下载链接：

https://github.com/DawidSitnik/Anomaly-Detection-in-Time-Series-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Yahoo提供的，用于时间序列异常检测的基准数据集。数据包含真实的Yahoo服务器流量数据，以及人工标记的15个异常点。数据点代表每小时的数据，时间戳被替换为整数，增量为1。数据集的目的是为了帮助研究人员和开发者评估和改进时间序列异常检测算法。

This dataset, provided by Yahoo, serves as a benchmark for time series anomaly detection. It encompasses authentic Yahoo server traffic data, along with 15 manually annotated anomaly points. Each data point represents hourly data, with timestamps replaced by integers incrementing by 1. The primary objective of this dataset is to assist researchers and developers in evaluating and enhancing time series anomaly detection algorithms.

创建时间：

2020-03-20

原始信息汇总

数据集概述

数据集名称

Yahoo时间序列异常检测基准数据集

数据集来源

数据由Yahoo提供，作为Yahoo Webscope计划的一部分，用于批准的非商业研究目的。

数据集内容

包含真实和合成的时间序列数据，其中标记了15个异常点。
时间戳被替换为整数，每个数据点代表1小时的数据。

数据集字段

timestamp
value
is_anomaly（布尔值，指示当前值是否为异常）

数据集用途

用于时间序列异常检测的研究和模型评估。

数据集特点

时间序列具有不同的尺度和长度，模型测试通常在单一时间序列上进行。
数据集中的异常由人工标记，可能存在不一致性。

数据集处理

数据预处理包括趋势和季节性的检测，但在本数据集中未发现这些特征。
数据归一化处理，使用公式 (df - df.mean()) / (df.max() - df.min())。

数据集评估方法

使用F1分数作为模型评估的基本指标，同时也计算了精确度和召回率。
对于异常检测，使用了多种方法，包括统计方法（如IQR）、One-class SVM、季节性混合ESD模型和隔离森林等。

数据集文件

LSTM_approach.ipynb：使用LSTM解决方案的Jupyter笔记本。
LSTM_approach.r：使用R语言实现的相同解决方案。
yahoo_notebook.Rmd：包含统计、One-class SVM、ESD和隔离森林方法的R笔记本。
yahoo_notebook.html：评估结果的R笔记本。

数据集评估结果

统计方法：F1分数为98.37%，精确度100%，召回率96.79%。
One-class SVM：F1分数为99.11%，精确度99.14%，召回率99.07%。
季节性混合ESD模型：F1分数为99.53%，精确度100%，召回率99.07%。
隔离森林：F1分数为99.43%，精确度99.08%，召回率99.78%。
LSTM神经网络：最佳结果为n=5，窗口大小=5，20个周期，模型未过拟合。

数据集结论

数据集为时间序列异常检测提供了一个基准，通过多种方法的评估，展示了不同方法的性能和适用性。

搜集汇总

数据集介绍

构建方式

该数据集由Yahoo Webscope项目提供，旨在为时间序列异常检测研究提供基准数据。数据集包含真实和合成的时间序列数据，每个数据点代表一小时的数据，时间戳被替换为递增的整数。数据集中包含15个人工标记的异常点，这些异常点可能并不完全一致。数据集的选择基于其在真实生产环境中的代表性，能够反映实际应用中可能遇到的异常检测任务。

特点

该数据集的特点在于其多样性和复杂性。时间序列数据具有不同的尺度和长度，这使得异常检测任务更具挑战性。数据集中的每个数据点包含三个字段：时间戳、数值和是否异常的标记。异常标记为布尔值，指示当前时间戳的数值是否被视为异常。这种结构使得数据集既适用于传统的统计方法，也适用于现代的机器学习模型。

使用方法

该数据集的使用方法多样，既可以通过传统的统计方法进行异常检测，也可以利用现代机器学习模型如LSTM网络进行预测。在使用过程中，首先需要对数据进行预处理，包括检查数据的平稳性、去除趋势和季节性等。随后，可以选择不同的模型进行训练和测试，如统计方法、One-class SVM、ESD模型和孤立森林等。最后，通过计算模型的精度、召回率和F1分数等指标来评估模型的性能。

背景与挑战

背景概述

时间序列异常检测是数据科学和机器学习领域中的一个重要研究方向，尤其在金融、医疗和网络安全等领域具有广泛的应用。'A Benchmark Dataset for Time Series Anomaly Detection'数据集由Yahoo Research于2015年发布，旨在为时间序列异常检测提供一个标准化的基准。该数据集包含真实和合成的时间序列数据，并标注了异常点，数据来源于Yahoo服务器的真实流量。研究人员Dawid Sitnik和Władysław Sinkiewicz利用该数据集，对比了传统无监督方法与现代深度学习方法在异常检测中的表现。该数据集的发布推动了时间序列异常检测算法的发展，并为相关研究提供了重要的实验基础。

当前挑战

时间序列异常检测面临的主要挑战在于数据的复杂性和异常点的多样性。首先，时间序列数据通常具有非平稳性、季节性和趋势性，这些特性使得异常检测变得复杂。其次，异常点的定义和标注往往依赖于人工判断，可能导致标注不一致或主观偏差。此外，构建该数据集时，研究人员需要处理不同尺度和长度的时间序列，这要求模型具备良好的泛化能力和参数调优技巧。在实际应用中，异常检测模型还需应对实时性和计算效率的挑战，以确保在复杂环境中能够快速准确地识别异常。

常用场景

经典使用场景

在时间序列分析领域，异常检测是一个至关重要的任务。该数据集被广泛用于评估和比较不同的异常检测算法，如LSTM网络、One-class SVM、ESD模型和孤立森林等。通过提供真实和合成的时间序列数据，研究人员能够在多样化的场景下测试和优化他们的模型，从而提升异常检测的准确性和鲁棒性。

实际应用

在实际应用中，该数据集被广泛用于监控和预测系统异常。例如，在互联网服务领域，它可以用于检测服务器流量的异常波动，从而及时采取措施防止服务中断。在金融领域，该数据集可用于识别交易数据中的异常行为，帮助防范欺诈和风险。此外，它还被应用于工业设备的状态监测，通过检测设备运行数据的异常，预测潜在的故障。

衍生相关工作

该数据集催生了许多经典的研究工作。例如，基于LSTM网络的异常检测方法在该数据集上得到了广泛验证，并推动了深度学习在时间序列分析中的应用。此外，One-class SVM和孤立森林等算法在该数据集上的表现也被深入研究，为这些算法的改进和优化提供了重要参考。这些研究工作不仅提升了异常检测的技术水平，还为相关领域的应用提供了坚实的理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集