LeoTungAnh/kdd210_hourly

Name: LeoTungAnh/kdd210_hourly
Creator: LeoTungAnh
Published: 2023-12-06 00:51:46
License: 暂无描述

Hugging Face2023-12-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LeoTungAnh/kdd210_hourly

下载链接

链接失效反馈

官方服务：

资源简介：

数据集kdd210_hourly最初来自KDD cup 2018，包含210个从2017年1月1日14:00开始的小时时间序列数据点，揭示了2017年1月1日至2018年3月31日期间两个城市59个站的空气质量水平。数据预处理包括按小时分组、标准化数据以及将NaN值替换为零。数据集格式包括特征如start, target, feat_static_cat, feat_dynamic_real, item_id，并提供了数据样本的示例。数据集可用于Huggingface的Transformer、Autoformer、Informer等模型，其他算法可以直接利用target特征提取数据。

提供机构：

LeoTungAnh

原始信息汇总

数据集概述

数据集信息

特征信息

start: 时间戳类型，单位为秒
feat_static_cat: 序列类型，无符号64位整数
feat_dynamic_real: 序列类型，包含浮点数32位
item_id: 字符串类型
target: 序列类型，浮点数64位

数据分割

train: 字节数为18154839，样本数为210
validation: 字节数为18235479，样本数为210
test: 字节数为18316119，样本数为210

数据集大小

下载大小: 47737715字节
数据集大小: 54706437字节

配置信息

config_name: default
data_files:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*

数据集详细信息

数据来源

数据集源自KDD cup 2018，包含270个不同起始时间的时间序列数据。
该数据集涵盖210个每小时的时间序列数据点，起始时间为2017-01-01T14:00:00。
数据反映了2017年1月1日至2018年3月31日期间，2个城市59个站点的空气质量水平。

预处理信息

按小时分组（频率："1H"）。
采用标准化作为预处理技术（"Std"）。
预处理步骤：
1. 标准化数据。
2. 将NaN值替换为零。

数据集格式

缺失值被转换为零。
时间序列数量：210
训练样本数量：10802
验证样本数量：10850（训练样本数量 + 48）
测试样本数量：10898（验证样本数量 + 48）

数据样本格式

start: 日期时间类型
target: 时间序列数据列表
feat_static_cat: 时间序列索引
feat_dynamic_real: 无
item_id: 时间序列名称

数据示例

python {start: datetime.datetime(2017, 1, 1, 14, 0, 0), feat_static_cat: [0], feat_dynamic_real: None, item_id: T1, target: [ 1.46812152, 1.31685537, 1.26169969, ..., 0.47487208, 0.80586637, 0.33006964] }

使用方法

数据集可用于Huggingface的Transformer、Autoformer、Informer等模型。
其他算法可通过直接使用target特征来提取数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集