Monash-University/monash_tsf
收藏Hugging Face2023-06-13 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Monash-University/monash_tsf
下载链接
链接失效反馈官方服务:
资源简介:
Monash时间序列预测库是第一个包含相关时间序列数据集的综合性库,旨在促进全球预测模型的评估。所有数据集仅用于研究目的。该库包含30个数据集,包括公开可用的时间序列数据集(以不同格式)和我们整理的数据集。许多数据集根据频率和缺失值的包含情况有不同的版本,使数据集变体总数达到58个。此外,它还包括涵盖不同领域的现实世界和竞赛时间序列数据集。
The Monash Time Series Forecasting Library is the first comprehensive library containing relevant time series datasets, designed to facilitate the evaluation of forecasting models across the globe. All datasets in this library are intended for research purposes only. This library includes 30 datasets, covering publicly available time series datasets in various formats and our curated datasets. Many datasets have different versions based on their sampling frequency and the presence of missing values, bringing the total number of dataset variants to 58. Additionally, it also features real-world and competitive time series datasets spanning diverse fields.
提供机构:
Monash-University
原始信息汇总
数据集概述
基本信息
- 数据集名称: Monash Time Series Forecasting Repository
- 数据集类型: 时间序列预测
- 语言: 单一语言
- 许可: CC-BY-4.0
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
- 任务类型: 时间序列预测
- 任务ID: 单变量时间序列预测、多变量时间序列预测
数据集配置
数据集包含多个配置,每个配置具有不同的特征和分割:
配置: weather
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 3010个样本,176893738字节test: 3010个样本,177638713字节validation: 3010个样本,177266226字节
- 下载大小: 38820451字节
- 数据集大小: 531798677字节
配置: tourism_yearly
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 518个样本,54264字节test: 518个样本,71358字节validation: 518个样本,62811字节
- 下载大小: 36749字节
- 数据集大小: 188433字节
配置: tourism_quarterly
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 427个样本,162738字节test: 427个样本,190920字节validation: 427个样本,176829字节
- 下载大小: 93833字节
- 数据集大小: 530487字节
配置: tourism_monthly
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 366个样本,391518字节test: 366个样本,463986字节validation: 366个样本,427752字节
- 下载大小: 199791字节
- 数据集大小: 1283256字节
配置: cif_2016
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 72个样本,24731字节test: 72个样本,31859字节validation: 72个样本,28295字节
- 下载大小: 53344字节
- 数据集大小: 84885字节
配置: london_smart_meters
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 5560个样本,684386194字节test: 5560个样本,687138394字节validation: 5560个样本,685762294字节
- 下载大小: 219673439字节
- 数据集大小: 2057286882字节
配置: australian_electricity_demand
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 5个样本,4763162字节test: 5个样本,4765637字节validation: 5个样本,4764400字节
- 下载大小: 5770526字节
- 数据集大小: 14293199字节
配置: wind_farms_minutely
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 339个样本,710078918字节test: 339个样本,710246723字节validation: 339个样本,710162820字节
- 下载大小: 71383130字节
- 数据集大小: 2130488461字节
配置: bitcoin
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 18个样本,336511字节test: 18个样本,340966字节validation: 18个样本,338738字节
- 下载大小: 220403字节
- 数据集大小: 1016215字节
配置: pedestrian_counts
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 66个样本,12897120字节test: 66个样本,12923256字节validation: 66个样本,12910188字节
- 下载大小: 4587054字节
- 数据集大小: 38730564字节
配置: vehicle_trips
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 329个样本,105261字节test: 329个样本,186688字节validation: 329个样本,145974字节
- 下载大小: 44914字节
- 数据集大小: 437923字节
配置: kdd_cup_2018
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 270个样本,12040046字节test: 270个样本,12146966字节validation: 270个样本,12093506字节
- 下载大小: 2456948字节
- 数据集大小: 36280518字节
配置: nn5_daily
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 111个样本,314828字节test: 111个样本,366110字节validation: 111个样本,340469字节
- 下载大小: 287708字节
- 数据集大小: 1021407字节
配置: nn5_weekly
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 111个样本,48344字节test: 111个样本,55670字节validation: 111个样本,52007字节
- 下载大小: 62043字节
- 数据集大小: 156021字节
配置: kaggle_web_traffic
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 145063个样本,415494391字节test: 145063个样本,486103806字节validation: 145063个样本,450799098字节
- 下载大小: 145485324字节
- 数据集大小: 1352397295字节
配置: kaggle_web_traffic_weekly
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 145063个样本,64242469字节test: 145063个样本,73816627字节validation: 145063个样本,69029548字节
- 下载大小: 28930900字节
- 数据集大小: 207088644字节
配置: solar_10_minutes
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 137个样本,29640033字节test: 137个样本,29707848字节validation: 137个样本,29673941字节
- 下载大小: 4559353字节
- 数据集大小: 89021822字节
配置: solar_weekly
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 137个样本,28614字节test: 137个样本,34265字节validation: 137个样本,31439字节
- 下载大小: 24375字节
- 数据集大小: 94318字节
配置: car_parts
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 2674个样本,396653字节test: 2674个样本,661379字节validation: 2674个样本,529016字节
- 下载大小: 39656字节
- 数据集大小: 1587048字节
配置: fred_md
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 107个样本,314514字节test: 107个样本,325107字节validation: 107个样本,319811字节
- 下载大小: 169107字节
- 数据集大小: 959432字节
配置: traffic_hourly
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id: 字符串
- 分割:
train: 862个样本,62071974字节test: 862个样本,62413326字节validation: 862个样本,62242650字节
- 下载大小: 22868806字节
- 数据集大小: 186727950字节
配置: traffic_weekly
- 特征:
start: 时间戳target: 浮点数序列feat_static_cat: 无符号整数序列feat_dynamic_real: 浮点数序列的序列item_id:
搜集汇总
数据集介绍

构建方式
Monash-University/monash_tsf数据集的构建基于多种公开可用的时序数据集,涵盖了从自然现象到社会经济活动的广泛领域。数据集的构建过程中,首先对原始数据进行了标准化处理,确保每个数据集具有一致的格式和结构。随后,根据不同的应用场景和预测需求,将数据集划分为多个子集,每个子集包含不同的时间频率和缺失值处理方式。最终,数据集被分为训练集、测试集和验证集,以支持时间序列预测模型的训练和评估。
特点
该数据集的显著特点在于其多样性和广泛的应用领域。数据集包含了30个不同的数据集,涵盖了自然、旅游、经济、交通等多个领域,且每个数据集都有多个版本,以适应不同的预测任务和模型需求。此外,数据集的结构设计合理,包含了时间戳、目标值、静态特征和动态特征等多个字段,为模型的输入提供了丰富的信息。
使用方法
使用Monash-University/monash_tsf数据集时,用户首先需要根据具体的预测任务选择合适的数据集配置。随后,可以通过加载训练集、测试集和验证集进行模型的训练和评估。数据集的结构清晰,用户可以根据需要提取时间戳、目标值、静态特征和动态特征等字段,用于模型的输入和输出。此外,数据集支持多种时间序列预测任务,包括单变量和多变量时间序列预测,用户可以根据需求选择合适的任务进行模型训练和预测。
背景与挑战
背景概述
Monash Time Series Forecasting Repository(Monash-University/monash_tsf)是由Monash大学创建的一个综合性时间序列预测数据集,旨在为全球预测模型的评估提供支持。该数据集包含了30个不同领域的公开和自定义时间序列数据集,涵盖了从自然现象到经济活动的广泛领域。数据集的创建旨在解决时间序列预测中的关键问题,如多变量和单变量时间序列的预测,以及不同频率数据的处理。自创建以来,该数据集已成为时间序列分析领域的重要资源,为研究人员提供了丰富的数据基础,推动了时间序列预测技术的发展。
当前挑战
Monash Time Series Forecasting Repository面临的主要挑战包括数据集的多样性和复杂性。首先,不同数据集的频率和预测长度各异,这要求模型具备高度的适应性和灵活性。其次,数据集中的缺失值处理和异常检测是构建高质量预测模型的关键问题。此外,由于数据集涵盖多个领域,模型的泛化能力和领域适应性也是重要的研究方向。最后,数据集的规模和计算资源的限制,对模型的训练和验证提出了更高的要求。
常用场景
经典使用场景
在时间序列分析领域,Monash-University/monash_tsf数据集被广泛用于开发和验证时间序列预测模型。该数据集涵盖了多个领域的实际数据,包括天气、旅游、能源需求、交通流量等,为研究者提供了丰富的实验材料。通过这些数据,研究者可以训练和测试各种时间序列预测算法,如ARIMA、LSTM和Prophet等,以评估其在不同应用场景中的性能。
实际应用
在实际应用中,Monash-University/monash_tsf数据集被用于多种场景,如能源管理、交通流量预测、金融市场分析和公共卫生监测等。例如,在能源管理领域,该数据集可以帮助预测电力需求,优化能源分配;在交通管理中,可以用于预测交通流量,优化交通信号控制。这些应用不仅提高了效率,还降低了成本,具有显著的经济和社会效益。
衍生相关工作
基于Monash-University/monash_tsf数据集,研究者们开发了多种创新的时间序列预测模型和方法。例如,一些研究提出了基于深度学习的多变量时间序列预测模型,显著提高了预测精度;另一些研究则专注于处理时间序列数据中的缺失值和异常值,提升了模型的鲁棒性。此外,该数据集还促进了跨学科的研究,如结合气象数据和交通数据的联合预测模型,为实际应用提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成



