AutonLab/Timeseries-PILE

Name: AutonLab/Timeseries-PILE
Creator: AutonLab
Published: 2024-05-10 19:27:40
License: 暂无描述

Hugging Face2024-05-10 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/AutonLab/Timeseries-PILE

下载链接

链接失效反馈

官方服务：

资源简介：

Time Series PILE是一个包含多个公开可用时间序列数据的大型集合，涵盖了从医疗保健到工程和金融等多个领域。数据集包含13个独特领域的数据，总计20.085 GB，包含1300万个独特的时间序列和12.3亿个时间戳。数据来源于5个广泛使用的公共存储库，包括Informer长期预测数据集、Monash时间序列预测档案、UCR/UEA分类档案和TSB-UAD异常基准等。

提供机构：

AutonLab

原始信息汇总

数据集概述

数据集名称

Time Series PILE

数据集描述

Time Series PILE 是一个包含多个公共时间序列数据库的大型集合，涵盖从医疗健康到工程和金融等多个领域。该数据集用于时间序列基础模型的预训练和评估。

数据集内容

包含来自13个独特领域的数据，总计20.085 GB，涵盖13M个独特时间序列和1.23亿个时间戳。
数据来源于超过5个特定任务的公共仓库，包括不同长度、幅度和时间分辨率的时间序列。

数据集组成部分

Informer long-horizon forecasting datasets：包含9个广泛用于评估长期预测性能的数据集。
Monash time series forecasting archive：包含58个公开的短期预测数据集，总计超过100K个时间序列。
UCR/UEA classification archive：包含159个常用于基准分类算法的时间序列数据集。
TSB-UAD anomaly benchmark：包含1980个单变量时间序列，来自18个异常检测数据集，涵盖多种来源。

数据集用途

用于时间序列基础模型的预训练和评估。

许可证

MIT

搜集汇总

数据集介绍

构建方式

在构建AutonLab/Timeseries-PILE数据集时，研究团队精心挑选并整合了来自多个领域的公开时间序列数据。这些数据涵盖了从医疗保健到工程和金融等多个领域，共计13个独特的数据域。数据集的构建过程包括从超过5个任务特定的公共数据库中收集数据，这些数据库如Informer长时预测数据集、Monash时间序列预测档案、UCR/UEA分类档案以及TSB-UAD异常基准等。通过这一过程，数据集包含了超过1300万条独特的时间序列和12.3亿个时间戳，确保了数据的多样性和广泛性。

使用方法

使用AutonLab/Timeseries-PILE数据集时，用户可以利用其丰富的数据资源进行时间序列预测和异常检测等任务。数据集的多样性允许用户在不同的应用场景中进行模型训练和验证。用户可以通过访问数据集的官方页面获取详细的使用指南和数据下载链接。此外，数据集的构建团队还提供了相关的研究论文，供用户参考和引用，以支持其在时间序列分析领域的进一步研究。

背景与挑战

背景概述

时间序列数据集（Time Series PILE）是由AutonLab团队精心编纂的一个大型公开时间序列数据集合，涵盖了从医疗到工程、金融等多个领域的数据。该数据集的创建旨在为时间序列基础模型的预训练和评估提供丰富的资源。自2021年以来，主要研究人员如Zhou、Godahewa、Dau和Paparrizos等，通过整合来自多个广泛使用的公共数据仓库的数据，构建了一个包含超过1300万条时间序列和12.3亿个时间戳的庞大数据集。这些数据跨越了13个独特的领域，包括电力变压器温度、交通流量、天气预报、流感疫情和汇率等，极大地推动了时间序列分析领域的发展。

当前挑战

尽管Time Series PILE数据集在时间序列分析领域具有重要影响力，但其构建和应用过程中仍面临诸多挑战。首先，数据来源的多样性带来了数据格式和质量的不一致问题，增加了数据预处理的复杂性。其次，时间序列数据的长度、振幅和时间分辨率各异，对模型的泛化能力和预测精度提出了高要求。此外，如何有效整合和利用这些来自不同领域的数据，以提升时间序列预测模型的性能，仍是一个亟待解决的研究问题。最后，随着数据规模的扩大，存储和计算资源的消耗也成为一个不可忽视的挑战。

常用场景

经典使用场景

在时间序列分析领域，AutonLab/Timeseries-PILE数据集因其广泛的数据来源和多样的应用场景而备受瞩目。该数据集汇集了来自医疗、工程、金融等多个领域的超过5个公开时间序列数据库，为时间序列基础模型的预训练和评估提供了丰富的资源。其经典使用场景包括但不限于长期预测、短期预测、分类和异常检测等，这些任务在实际应用中具有广泛的需求和挑战。

解决学术问题

AutonLab/Timeseries-PILE数据集在学术研究中解决了多个关键问题。首先，它为时间序列基础模型的预训练提供了大规模、多样化的数据，有助于提升模型的泛化能力和预测精度。其次，通过整合来自不同领域的数据，该数据集为跨领域时间序列分析提供了宝贵的资源，推动了相关研究的深入发展。此外，该数据集还为异常检测和分类任务提供了丰富的标注数据，有助于提升这些任务的算法性能和应用效果。

实际应用

在实际应用中，AutonLab/Timeseries-PILE数据集展现出广泛的应用潜力。例如，在医疗领域，该数据集可用于疾病预测和健康监测，通过分析患者的历史数据来预测未来的健康状况。在金融领域，它可以用于市场趋势分析和风险管理，帮助投资者做出更明智的决策。此外，在工程和环境监测中，该数据集也可用于设备故障预测和环境变化分析，提升系统的可靠性和效率。

数据集最近研究