rt-datasets-forecasting

github2024-04-19 更新2024-05-31 收录

下载链接：

https://github.com/readytensor/rt-datasets-forecasting

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含用于Ready Tensor平台上Forecasting类别模型基准测试的数据集文件。共有24个基准测试数据集，以及一个用于模型烟雾测试的第25个数据集。

This repository contains dataset files for benchmarking models in the Forecasting category on the Ready Tensor platform. It includes a total of 24 benchmark datasets, along with a 25th dataset intended for model smoke testing.

创建时间：

2023-10-27

原始信息汇总

数据集概述

本数据集包含24个用于基准测试的预测模型数据集，以及一个用于模型快速测试的“烟雾测试”数据集。这些数据集涵盖多个行业和领域，包括环境科学、交通、金融、食品饮料等。以下是各数据集的详细信息：

1. Air Quality KDD 2018

行业: 环境科学
时间粒度: 每小时
序列长度: 10,898
序列数量: 34
过去协变量数量: 5
未来协变量数量: 0
静态协变量数量: 0

2. Airline Passengers

行业: 交通/航空
时间粒度: 每月
序列长度: 144
序列数量: 1
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

3. ARIMA Process

行业: 无（合成）
时间粒度: 其他
序列长度: 750
序列数量: 25
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

4. Atmospheric CO2 Concentrations

行业: 环境科学
时间粒度: 每月
序列长度: 789
序列数量: 1
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

5. Australian Beer Production

行业: 食品与饮料/酿造
时间粒度: 每季度
序列长度: 218
序列数量: 1
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

6. Avocado Sales

行业: 农业与食品
时间粒度: 每周
序列长度: 169
序列数量: 106
过去协变量数量: 7
未来协变量数量: 0
静态协变量数量: 1

7. Bank Branch Transactions

行业: 金融/合成
时间粒度: 每周
序列长度: 169
序列数量: 32
过去协变量数量: 5
未来协变量数量: 1
静态协变量数量: 2

8. Climate Related Disasters Frequency

行业: 气候科学
时间粒度: 每年
序列长度: 43
序列数量: 50
过去协变量数量: 6
未来协变量数量: 0
静态协变量数量: 0

9. Daily Stock Prices

行业: 金融
时间粒度: 每日
序列长度: 1,000
序列数量: 52
过去协变量数量: 5
未来协变量数量: 0
静态协变量数量: 0

10. Daily Weather in 26 World Cities

行业: 气象学
时间粒度: 每日
序列长度: 1,095
序列数量: 25
过去协变量数量: 16
未来协变量数量: 0
静态协变量数量: 1

11. GDP per Capita Change

行业: 经济学与金融
时间粒度: 每年
序列长度: 58
序列数量: 89
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

12. Geometric Brownian Motion

行业: 无（合成）
时间粒度: 其他
序列长度: 504
序列数量: 100
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

13. M4 Forecasting Competition Sampled Daily Series

行业: 杂项
时间粒度: 每日
序列长度: 1,280
序列数量: 60
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

14. M4 Forecasting Competition Sampled Hourly Series

行业: 杂项
时间粒度: 每小时
序列长度: 748
序列数量: 35
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

15. M4 Forecasting Competition Sampled Monthly Series

行业: 杂项
时间粒度: 每月
序列长度: 324
序列数量: 80
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

16. M4 Forecasting Competition Sampled Quarterly Series

行业: 杂项
时间粒度: 每季度
序列长度: 78
序列数量: 75
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

17. M4 Forecasting Competition Sampled Yearly Series

行业: 杂项
时间粒度: 每年
序列长度: 46
序列数量: 100
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

18. Online Retail Sales

行业: 电子商务/零售
时间粒度: 每日
序列长度: 363
序列数量: 38
过去协变量数量: 1
未来协变量数量: 0
静态协变量数量: 0

19. PJM Hourly Energy Consumption

行业: 能源
时间粒度: 每小时
序列长度: 10,223
序列数量: 10
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

20. Random Walk Dataset

行业: 无（合成）
时间粒度: 其他
序列长度: 500
序列数量: 70
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

21. Seattle Burke Gilman Trail

行业: 城市规划
时间粒度: 每小时
序列长度: 5,088
序列数量: 4
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 4

22. Smoke Test Forecasting

行业: 无（合成）
时间粒度: 其他
序列长度: 100
序列数量: 5
过去协变量数量: 0
未来协变量数量: 1
静态协变量数量: 0

23. Sunspots

行业: 天文学/天体物理学
时间粒度: 每月
序列长度: 2,280
序列数量: 1
过去协变量数量: 0
未来协变量数量: 0
静态协变量数量: 0

24. Multi-Seasonality Timeseries With Covariates

行业: 无（合成）
时间粒度: 其他
序列长度: 160
序列数量: 36
过去协变量数量: 1
未来协变量数量: 2
静态协变量数量: 3

25. Theme Park Attendance

行业: 娱乐/主题公园
时间粒度: 每日
序列长度: 1,142
序列数量: 1
过去协变量数量: 0
未来协变量数量: 56
静态协变量数量: 0

这些数据集用于Ready Tensor平台上的模型基准测试，每个数据集都有详细的描述和属性信息，以支持时间序列预测模型的开发和评估。

搜集汇总

数据集介绍

构建方式

rt-datasets-forecasting数据集的构建方式主要基于对多个领域的时间序列数据进行收集和处理。这些数据集涵盖了从环境科学到金融、农业等多个行业，时间粒度从每小时到每年不等。每个数据集都经过精心处理，包括缺失值的处理、数据的标准化以及训练集和测试集的划分。具体来说，数据集的构建过程包括从原始数据源获取数据，使用Jupyter Notebook进行数据清洗和转换，生成训练、测试和测试关键文件，并最终生成相应的JSON模式文件。

特点

该数据集的特点在于其多样性和广泛的应用领域。它包含了24个用于基准测试的时间序列数据集，涵盖了从空气质量、航空乘客数量到股票价格等多个领域。此外，数据集还包括一个用于快速测试模型的烟雾测试数据集。每个数据集都具有不同的时间粒度和序列长度，以及不同数量的过去和未来协变量，这使得该数据集非常适合用于时间序列预测模型的基准测试和模型验证。

使用方法

使用rt-datasets-forecasting数据集时，用户可以从GitHub仓库中下载相应的数据文件和模式文件。数据集分为训练集和测试集，训练集用于模型训练，测试集用于模型预测。用户可以根据需要选择不同的数据集进行实验，并使用提供的Jupyter Notebook进行数据预处理。此外，用户还可以使用提供的Python脚本生成训练、测试和测试关键文件，以便进行模型评估和基准测试。

背景与挑战

背景概述

rt-datasets-forecasting数据集是由Ready Tensor平台创建的，专门用于时间序列预测模型的基准测试。该数据集包含了24个用于基准测试的数据集和1个用于快速测试的烟雾测试数据集，涵盖了多个领域，如环境科学、金融、气象学等。这些数据集的时间粒度从每小时到每年不等，适用于不同的时间序列分析任务。数据集的创建旨在为时间序列预测模型的开发和评估提供标准化的数据资源，帮助研究人员和开发者在不同领域中应用和验证预测模型。

当前挑战

rt-datasets-forecasting数据集面临的主要挑战包括：1) 数据集的多样性和复杂性，不同领域的时间序列数据具有不同的特征和噪声水平，这增加了模型训练和预测的难度；2) 数据集中的缺失值和异常值处理，尤其是在环境科学和气象学等领域，数据质量问题较为突出；3) 时间序列数据的长期依赖性和季节性模式，这对模型的准确性和泛化能力提出了更高的要求；4) 数据集的构建过程中，如何确保数据的代表性和均衡性，以便于模型的公平比较和评估。

常用场景

经典使用场景

rt-datasets-forecasting数据集广泛应用于时间序列预测模型的基准测试。其包含的24个数据集涵盖了多个领域，如环境科学、金融、气象学等，每个数据集具有不同的时间粒度和序列长度，适合用于评估和比较不同预测模型的性能。例如，Air Quality KDD 2018数据集可用于空气质量预测，而Airline Passengers数据集则常用于季节性模式的分析和预测。这些数据集为研究人员提供了丰富的资源，用于开发和验证各种时间序列预测算法。

实际应用

rt-datasets-forecasting数据集在多个实际应用场景中具有重要价值。例如，Air Quality KDD 2018数据集可用于城市空气质量管理，帮助政府和环保机构制定有效的污染控制策略。Daily Weather in 26 World Cities数据集则可用于气象预报，提升天气预测的准确性。此外，Bank Branch Transactions数据集在零售银行业务中具有广泛应用，可用于优化银行分支机构的运营和资源分配。这些实际应用展示了该数据集在不同行业中的广泛适用性和重要性。

衍生相关工作

基于rt-datasets-forecasting数据集，许多经典工作得以衍生和发展。例如，Airline Passengers数据集启发了大量关于季节性时间序列分析的研究，推动了ARIMA和指数平滑等预测技术的发展。Daily Stock Prices数据集则促进了金融时间序列分析的深入研究，特别是在股票市场预测和风险管理领域。此外，Climate Related Disasters Frequency数据集为气候变化研究提供了重要数据支持，推动了气候灾害预测模型的开发和应用。这些衍生工作不仅丰富了时间序列预测的理论基础，还为实际应用提供了强有力的支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集