UCR Time Series Anomaly Archive

Name: UCR Time Series Anomaly Archive
Creator: 加州大学河滨分校计算机科学与工程系
Published: 2022-09-03 12:46:38
License: 暂无描述

arXiv2022-09-03 更新2024-06-21 收录

下载链接：

https://www.cs.ucr.edu/~eamonn/time_series_data_2018/UCR_TimeSeriesAnomalyDatasets2021.zip

下载链接

链接失效反馈

官方服务：

资源简介：

UCR Time Series Anomaly Archive是由加州大学河滨分校计算机科学与工程系的Renjie Wu和Eamonn J. Keogh创建的一个新的时间序列异常检测基准数据集。该数据集旨在解决现有基准数据集存在的多种缺陷，如简单性、不切实际的异常密度、错误的标注和运行至故障偏差等问题。数据集涵盖多个领域，包括医学、体育、昆虫学等，旨在为研究者提供一个更可靠的比较和评估异常检测算法的平台。

The UCR Time Series Anomaly Archive is a novel benchmark dataset for time series anomaly detection, created by Renjie Wu and Eamonn J. Keogh from the Department of Computer Science and Engineering, University of California, Riverside. This dataset is designed to address multiple limitations of existing benchmark datasets, including oversimplification, unrealistic anomaly density, incorrect annotations, and run-to-failure bias. Spanning multiple domains such as medicine, sports, and entomology, it aims to provide researchers with a more reliable platform for comparing and evaluating anomaly detection algorithms.

提供机构：

加州大学河滨分校计算机科学与工程系

创建时间：

2020-09-29

搜集汇总

数据集介绍

构建方式

UCR Time Series Anomaly Archive的构建方式是通过汇集来自不同领域的真实和合成时间序列数据集，旨在提供一个能够进行有意义比较的基准，用于评估和比较异常检测算法。该数据集的构建考虑了当前时间序列异常检测基准数据集的缺陷，如问题简单性、异常密度不真实、标签错误和运行至故障偏差等，并尝试避免这些问题。

特点

UCR Time Series Anomaly Archive的特点在于其数据集包含了从医学、体育、昆虫学、工业、太空科学、机器人等领域收集的时间序列数据，这些数据集具有单异常性，即每个测试时间序列中只有一个异常。此外，该数据集还包括了一些可能可以通过一行代码解决的简单问题，以及一些需要更复杂方法才能解决的难题。

使用方法

使用UCR Time Series Anomaly Archive的方法包括但不限于以下步骤：1. 下载并解压数据集；2. 选择适合自己研究目的的数据集；3. 对数据集进行预处理，如归一化、填充缺失值等；4. 选择合适的异常检测算法，并进行训练和测试；5. 使用评价指标，如准确率、召回率、F1分数等，来评估算法的性能。

背景与挑战

背景概述

时间序列异常检测一直是数据科学中的一个重要课题，其研究历史可追溯至20世纪50年代。近年来，随着深度学习在其他领域和任务中的成功应用，该领域的研究兴趣迅速增长。许多研究论文都基于由Yahoo、Numenta、NASA等机构创建的流行基准数据集进行测试。然而，本文提出了一种惊人的观点：这些数据集中的大多数个体实例都存在至少一个缺陷，包括简单性、不切实际的异常密度、错误标记的真实情况和运行至故障的偏差。由于这些缺陷，我们认为许多已发表的异常检测算法比较可能是不可靠的，更重要的是，近年来许多看似的进步可能是虚假的。为了解决这些问题，本文介绍了UCR时间序列异常档案，旨在为社区提供一个基准，允许对方法进行比较，并提供对整体进展的有意义的衡量。

当前挑战

UCR时间序列异常档案面临的挑战主要包括：1)确保数据集的多样性和复杂性，以避免简单问题可以用一行代码解决；2)创建具有合理异常密度的数据集，以更好地反映现实世界的异常情况；3)保证数据集的真实性和可靠性，避免错误标记的真实情况；4)避免数据集存在运行至故障的偏差，以确保算法的通用性。

常用场景

经典使用场景

UCR Time Series Anomaly Archive 数据集是时间序列异常检测领域的重要资源，其经典使用场景主要在于对异常检测算法进行评估和比较。该数据集提供了多种时间序列数据，涵盖了医学、体育、工业、空间科学、机器人等多个领域，且每个数据集仅包含一个异常点，这有助于研究人员专注于异常检测的精确性和准确性。通过对该数据集上的算法进行测试，研究者可以更准确地评估算法的性能，从而推动异常检测技术的发展。

衍生相关工作

UCR Time Series Anomaly Archive 数据集的提出，引发了时间序列异常检测领域的一系列相关工作。例如，一些研究者使用该数据集对现有的异常检测算法进行评估和比较，从而推动了异常检测算法的发展；一些研究者基于该数据集提出了新的异常检测算法，从而提高了异常检测的准确性和效率；还有一些研究者使用该数据集对异常检测算法的可解释性进行研究，从而提高了异常检测算法的透明度和可信度。此外，该数据集还激发了研究者对异常检测基准数据集的研究，从而推动了异常检测基准数据集的改进和完善。总之，UCR Time Series Anomaly Archive 数据集的提出，对时间序列异常检测领域的研究产生了深远的影响。

数据集最近研究