five

Monash-University/monash_tsf|时间序列预测数据集|多领域应用数据集

收藏
hugging_face2023-06-13 更新2024-06-15 收录
时间序列预测
多领域应用
下载链接:
https://hf-mirror.com/datasets/Monash-University/monash_tsf
下载链接
链接失效反馈
资源简介:
Monash时间序列预测库是第一个包含相关时间序列数据集的综合性库,旨在促进全球预测模型的评估。所有数据集仅用于研究目的。该库包含30个数据集,包括公开可用的时间序列数据集(以不同格式)和我们整理的数据集。许多数据集根据频率和缺失值的包含情况有不同的版本,使数据集变体总数达到58个。此外,它还包括涵盖不同领域的现实世界和竞赛时间序列数据集。
提供机构:
Monash-University
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Monash Time Series Forecasting Repository
  • 数据集类型: 时间序列预测
  • 语言: 单一语言
  • 许可: CC-BY-4.0
  • 数据集大小: 1K<n<10K
  • 源数据: 原始数据
  • 任务类型: 时间序列预测
  • 任务ID: 单变量时间序列预测、多变量时间序列预测

数据集配置

数据集包含多个配置,每个配置具有不同的特征和分割:

配置: weather

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 3010个样本,176893738字节
    • test: 3010个样本,177638713字节
    • validation: 3010个样本,177266226字节
  • 下载大小: 38820451字节
  • 数据集大小: 531798677字节

配置: tourism_yearly

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 518个样本,54264字节
    • test: 518个样本,71358字节
    • validation: 518个样本,62811字节
  • 下载大小: 36749字节
  • 数据集大小: 188433字节

配置: tourism_quarterly

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 427个样本,162738字节
    • test: 427个样本,190920字节
    • validation: 427个样本,176829字节
  • 下载大小: 93833字节
  • 数据集大小: 530487字节

配置: tourism_monthly

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 366个样本,391518字节
    • test: 366个样本,463986字节
    • validation: 366个样本,427752字节
  • 下载大小: 199791字节
  • 数据集大小: 1283256字节

配置: cif_2016

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 72个样本,24731字节
    • test: 72个样本,31859字节
    • validation: 72个样本,28295字节
  • 下载大小: 53344字节
  • 数据集大小: 84885字节

配置: london_smart_meters

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 5560个样本,684386194字节
    • test: 5560个样本,687138394字节
    • validation: 5560个样本,685762294字节
  • 下载大小: 219673439字节
  • 数据集大小: 2057286882字节

配置: australian_electricity_demand

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 5个样本,4763162字节
    • test: 5个样本,4765637字节
    • validation: 5个样本,4764400字节
  • 下载大小: 5770526字节
  • 数据集大小: 14293199字节

配置: wind_farms_minutely

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 339个样本,710078918字节
    • test: 339个样本,710246723字节
    • validation: 339个样本,710162820字节
  • 下载大小: 71383130字节
  • 数据集大小: 2130488461字节

配置: bitcoin

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 18个样本,336511字节
    • test: 18个样本,340966字节
    • validation: 18个样本,338738字节
  • 下载大小: 220403字节
  • 数据集大小: 1016215字节

配置: pedestrian_counts

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 66个样本,12897120字节
    • test: 66个样本,12923256字节
    • validation: 66个样本,12910188字节
  • 下载大小: 4587054字节
  • 数据集大小: 38730564字节

配置: vehicle_trips

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 329个样本,105261字节
    • test: 329个样本,186688字节
    • validation: 329个样本,145974字节
  • 下载大小: 44914字节
  • 数据集大小: 437923字节

配置: kdd_cup_2018

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 270个样本,12040046字节
    • test: 270个样本,12146966字节
    • validation: 270个样本,12093506字节
  • 下载大小: 2456948字节
  • 数据集大小: 36280518字节

配置: nn5_daily

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 111个样本,314828字节
    • test: 111个样本,366110字节
    • validation: 111个样本,340469字节
  • 下载大小: 287708字节
  • 数据集大小: 1021407字节

配置: nn5_weekly

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 111个样本,48344字节
    • test: 111个样本,55670字节
    • validation: 111个样本,52007字节
  • 下载大小: 62043字节
  • 数据集大小: 156021字节

配置: kaggle_web_traffic

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 145063个样本,415494391字节
    • test: 145063个样本,486103806字节
    • validation: 145063个样本,450799098字节
  • 下载大小: 145485324字节
  • 数据集大小: 1352397295字节

配置: kaggle_web_traffic_weekly

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 145063个样本,64242469字节
    • test: 145063个样本,73816627字节
    • validation: 145063个样本,69029548字节
  • 下载大小: 28930900字节
  • 数据集大小: 207088644字节

配置: solar_10_minutes

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 137个样本,29640033字节
    • test: 137个样本,29707848字节
    • validation: 137个样本,29673941字节
  • 下载大小: 4559353字节
  • 数据集大小: 89021822字节

配置: solar_weekly

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 137个样本,28614字节
    • test: 137个样本,34265字节
    • validation: 137个样本,31439字节
  • 下载大小: 24375字节
  • 数据集大小: 94318字节

配置: car_parts

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 2674个样本,396653字节
    • test: 2674个样本,661379字节
    • validation: 2674个样本,529016字节
  • 下载大小: 39656字节
  • 数据集大小: 1587048字节

配置: fred_md

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 107个样本,314514字节
    • test: 107个样本,325107字节
    • validation: 107个样本,319811字节
  • 下载大小: 169107字节
  • 数据集大小: 959432字节

配置: traffic_hourly

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id: 字符串
  • 分割:
    • train: 862个样本,62071974字节
    • test: 862个样本,62413326字节
    • validation: 862个样本,62242650字节
  • 下载大小: 22868806字节
  • 数据集大小: 186727950字节

配置: traffic_weekly

  • 特征:
    • start: 时间戳
    • target: 浮点数序列
    • feat_static_cat: 无符号整数序列
    • feat_dynamic_real: 浮点数序列的序列
    • item_id:
AI搜集汇总
数据集介绍
main_image_url
构建方式
Monash-University/monash_tsf数据集的构建基于多种公开可用的时序数据集,涵盖了从自然现象到社会经济活动的广泛领域。数据集的构建过程中,首先对原始数据进行了标准化处理,确保每个数据集具有一致的格式和结构。随后,根据不同的应用场景和预测需求,将数据集划分为多个子集,每个子集包含不同的时间频率和缺失值处理方式。最终,数据集被分为训练集、测试集和验证集,以支持时间序列预测模型的训练和评估。
特点
该数据集的显著特点在于其多样性和广泛的应用领域。数据集包含了30个不同的数据集,涵盖了自然、旅游、经济、交通等多个领域,且每个数据集都有多个版本,以适应不同的预测任务和模型需求。此外,数据集的结构设计合理,包含了时间戳、目标值、静态特征和动态特征等多个字段,为模型的输入提供了丰富的信息。
使用方法
使用Monash-University/monash_tsf数据集时,用户首先需要根据具体的预测任务选择合适的数据集配置。随后,可以通过加载训练集、测试集和验证集进行模型的训练和评估。数据集的结构清晰,用户可以根据需要提取时间戳、目标值、静态特征和动态特征等字段,用于模型的输入和输出。此外,数据集支持多种时间序列预测任务,包括单变量和多变量时间序列预测,用户可以根据需求选择合适的任务进行模型训练和预测。
背景与挑战
背景概述
Monash Time Series Forecasting Repository(Monash-University/monash_tsf)是由Monash大学创建的一个综合性时间序列预测数据集,旨在为全球预测模型的评估提供支持。该数据集包含了30个不同领域的公开和自定义时间序列数据集,涵盖了从自然现象到经济活动的广泛领域。数据集的创建旨在解决时间序列预测中的关键问题,如多变量和单变量时间序列的预测,以及不同频率数据的处理。自创建以来,该数据集已成为时间序列分析领域的重要资源,为研究人员提供了丰富的数据基础,推动了时间序列预测技术的发展。
当前挑战
Monash Time Series Forecasting Repository面临的主要挑战包括数据集的多样性和复杂性。首先,不同数据集的频率和预测长度各异,这要求模型具备高度的适应性和灵活性。其次,数据集中的缺失值处理和异常检测是构建高质量预测模型的关键问题。此外,由于数据集涵盖多个领域,模型的泛化能力和领域适应性也是重要的研究方向。最后,数据集的规模和计算资源的限制,对模型的训练和验证提出了更高的要求。
常用场景
经典使用场景
在时间序列分析领域,Monash-University/monash_tsf数据集被广泛用于开发和验证时间序列预测模型。该数据集涵盖了多个领域的实际数据,包括天气、旅游、能源需求、交通流量等,为研究者提供了丰富的实验材料。通过这些数据,研究者可以训练和测试各种时间序列预测算法,如ARIMA、LSTM和Prophet等,以评估其在不同应用场景中的性能。
实际应用
在实际应用中,Monash-University/monash_tsf数据集被用于多种场景,如能源管理、交通流量预测、金融市场分析和公共卫生监测等。例如,在能源管理领域,该数据集可以帮助预测电力需求,优化能源分配;在交通管理中,可以用于预测交通流量,优化交通信号控制。这些应用不仅提高了效率,还降低了成本,具有显著的经济和社会效益。
衍生相关工作
基于Monash-University/monash_tsf数据集,研究者们开发了多种创新的时间序列预测模型和方法。例如,一些研究提出了基于深度学习的多变量时间序列预测模型,显著提高了预测精度;另一些研究则专注于处理时间序列数据中的缺失值和异常值,提升了模型的鲁棒性。此外,该数据集还促进了跨学科的研究,如结合气象数据和交通数据的联合预测模型,为实际应用提供了新的解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

中国近海台风路径集合数据集(1945-2023)

1945-2023年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注:时间为北京时间。

国家海洋科学数据中心 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录