LeoTungAnh/kdd210_hourly
收藏Hugging Face2023-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LeoTungAnh/kdd210_hourly
下载链接
链接失效反馈官方服务:
资源简介:
数据集kdd210_hourly最初来自KDD cup 2018,包含210个从2017年1月1日14:00开始的小时时间序列数据点,揭示了2017年1月1日至2018年3月31日期间两个城市59个站的空气质量水平。数据预处理包括按小时分组、标准化数据以及将NaN值替换为零。数据集格式包括特征如start, target, feat_static_cat, feat_dynamic_real, item_id,并提供了数据样本的示例。数据集可用于Huggingface的Transformer、Autoformer、Informer等模型,其他算法可以直接利用target特征提取数据。
数据集kdd210_hourly最初来自KDD cup 2018,包含210个从2017年1月1日14:00开始的小时时间序列数据点,揭示了2017年1月1日至2018年3月31日期间两个城市59个站的空气质量水平。数据预处理包括按小时分组、标准化数据以及将NaN值替换为零。数据集格式包括特征如start, target, feat_static_cat, feat_dynamic_real, item_id,并提供了数据样本的示例。数据集可用于Huggingface的Transformer、Autoformer、Informer等模型,其他算法可以直接利用target特征提取数据。
提供机构:
LeoTungAnh
原始信息汇总
数据集概述
数据集信息
特征信息
- start: 时间戳类型,单位为秒
- feat_static_cat: 序列类型,无符号64位整数
- feat_dynamic_real: 序列类型,包含浮点数32位
- item_id: 字符串类型
- target: 序列类型,浮点数64位
数据分割
- train: 字节数为18154839,样本数为210
- validation: 字节数为18235479,样本数为210
- test: 字节数为18316119,样本数为210
数据集大小
- 下载大小: 47737715字节
- 数据集大小: 54706437字节
配置信息
- config_name: default
- data_files:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
数据集详细信息
数据来源
- 数据集源自KDD cup 2018,包含270个不同起始时间的时间序列数据。
- 该数据集涵盖210个每小时的时间序列数据点,起始时间为2017-01-01T14:00:00。
- 数据反映了2017年1月1日至2018年3月31日期间,2个城市59个站点的空气质量水平。
预处理信息
- 按小时分组(频率:"1H")。
- 采用标准化作为预处理技术("Std")。
- 预处理步骤:
- 标准化数据。
- 将NaN值替换为零。
数据集格式
- 缺失值被转换为零。
- 时间序列数量:210
- 训练样本数量:10802
- 验证样本数量:10850(训练样本数量 + 48)
- 测试样本数量:10898(验证样本数量 + 48)
数据样本格式
- start: 日期时间类型
- target: 时间序列数据列表
- feat_static_cat: 时间序列索引
- feat_dynamic_real: 无
- item_id: 时间序列名称
数据示例
python {start: datetime.datetime(2017, 1, 1, 14, 0, 0), feat_static_cat: [0], feat_dynamic_real: None, item_id: T1, target: [ 1.46812152, 1.31685537, 1.26169969, ..., 0.47487208, 0.80586637, 0.33006964] }
使用方法
- 数据集可用于Huggingface的Transformer、Autoformer、Informer等模型。
- 其他算法可通过直接使用target特征来提取数据。



