Powertrain Anomaly Time series bencHmark (PATH) dataset

Name: Powertrain Anomaly Time series bencHmark (PATH) dataset
Creator: 莱顿大学
Published: 2024-11-25 22:24:57
License: 暂无描述

arXiv2024-11-25 更新2024-11-23 收录

下载链接：

https://zenodo.org/records/13255121

下载链接

链接失效反馈

官方服务：

资源简介：

PATH数据集是由莱顿大学创建的一个用于评估在线无监督异常检测方法的多变量时间序列数据集。该数据集通过先进的仿真工具生成，反映了汽车动力系统的真实行为，包括其多变量、动态和变状态属性。数据集旨在支持无监督和半监督异常检测设置，以及时间序列生成和预测任务。数据集的创建过程基于物理启发的仿真模型，特别是电动车辆的仿真模型。PATH数据集主要应用于工业过程的数字化和系统行为建模，旨在解决时间序列中的异常检测问题。

The PATH dataset is a multivariate time series dataset created by Leiden University for evaluating online unsupervised anomaly detection methods. Generated using advanced simulation tools, it captures the real-world behavior of automotive powertrain systems, including its multivariate, dynamic, and state-varying properties. This dataset is designed to support unsupervised and semi-supervised anomaly detection settings, as well as time series generation and forecasting tasks. Its creation process is based on physics-informed simulation models, particularly those for electric vehicles. The PATH dataset is primarily applied to the digitization of industrial processes and system behavior modeling, aiming to address anomaly detection problems in time series.

提供机构：

莱顿大学

创建时间：

2024-11-21

搜集汇总

数据集介绍

构建方式

为了应对多元时间序列异常检测领域中高质量数据集的匮乏，研究团队采用先进的仿真工具构建了Powertrain Anomaly Time series bencHmark (PATH)数据集。该数据集通过模拟真实汽车动力系统的动态行为，生成了包含多元、动态和变状态特性的数据。为了适应无监督和半监督异常检测设置，以及时间序列生成和预测任务，数据集提供了不同版本的训练和测试子集，包括受污染和清洁版本。

特点

PATH数据集的主要特点在于其多样性、广泛性和非平凡性。数据集通过模拟生成，反映了真实世界中汽车动力系统的复杂行为，包括多元时间序列、动态变化和变状态特性。此外，数据集提供了无监督、半监督和时间序列生成等多个版本，以满足不同研究需求。

使用方法

PATH数据集适用于多元时间序列的在线异常检测研究。用户可以根据研究需求选择无监督或半监督版本的训练和测试子集。数据集还提供了基准结果，供研究人员参考和比较。此外，数据集的源代码和仿真模型已在GitHub上公开，便于研究人员复现和扩展相关实验。

背景与挑战

背景概述

随着工业过程的数字化进程不断推进，越来越多的数据被记录下来。确保这些数据能够准确反映过程状态至关重要，因为下游任务如建模或优化可能会受到不完整或污染数据的不利影响。对于需要系统行为建模的任务，偏离常态的数据是不受欢迎的，因此我们称之为异常行为。记录的数据根据应用和领域的不同，可以表现为多种形式，其中一种形式是时间序列。时间序列异常检测的基准测试由于缺乏高质量的数据集而面临挑战，现有的公开数据集规模过小、多样性不足且包含简单的异常，这阻碍了该研究领域的可衡量进展。为此，我们提出了一种解决方案：通过最先进的仿真工具生成一个多样、广泛且非简单的数据集，该数据集反映了汽车动力系统的现实行为，包括其多变量、动态和可变状态属性。

当前挑战

构建PATH数据集过程中面临的主要挑战包括：1) 缺乏高质量的基准数据集，现有的公开数据集规模小、多样性不足且异常简单；2) 数据集生成过程中需要确保异常行为的非简单性和现实性，这要求仿真模型能够准确反映真实系统的复杂动态；3) 数据集需要支持无监督和半监督异常检测设置，以及时间序列生成和预测任务，这需要在数据集版本中提供训练和测试子集的污染和清洁版本；4) 需要提供基准结果以评估不同方法的性能，这要求在数据集生成后进行详细的实验和分析。

常用场景

经典使用场景

PATH数据集的经典使用场景主要集中在多变量时间序列的在线无监督异常检测。该数据集通过先进的仿真工具生成，反映了汽车动力系统的真实行为，包括其多变量、动态和变状态特性。研究人员可以利用该数据集评估和开发新的异常检测算法，特别是在无监督和半监督设置下，以及时间序列生成和预测任务中。

实际应用

在实际应用中，PATH数据集可用于监测和诊断汽车动力系统中的异常行为，确保系统的安全性和可靠性。此外，该数据集还可应用于其他工业过程的在线异常检测，如服务器监控、水系统管理和无人机飞行数据分析等。通过模拟真实世界的复杂性和变状态特性，PATH数据集为开发和测试实际应用中的异常检测算法提供了宝贵的资源。

衍生相关工作

基于PATH数据集，研究人员已经开发了多种深度学习和经典方法用于多变量时间序列的异常检测。例如，OmniAnomaly、TCN-AE、SISVAE、LW-VAE、TSADIS和TeVAE等方法在该数据集上进行了基准测试。此外，该数据集还激发了对电池老化和预测性维护等领域的进一步研究，推动了多变量时间序列数据分析技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集