California_ISO
收藏WIATS: Weather-centric Intervention-Aware Time Series Multimodal Dataset 概述
数据集基本信息
- 任务类别: 时间序列预测
- 语言: 英文
- 标签: TimeSeries, Multimodal, Heterogeneous
- 数据规模: 1B < n < 10B
数据来源
- 数据来源于 California ISO
数据集结构
数据集按以下结构组织:
|-- subdataset1 | |-- raw_data # 原始数据文件 | |-- time_series # 基于规则插补的数据文件 | | |-- id_1.parquet # 每个主题的时间序列数据,可以是多元的,格式可以是csv、parquet等 | | |-- id_2.parquet | | |-- ... | | |-- id_info.json # 每个主题的元数据 | |-- weather | | |-- location_1 | | | |-- raw_data | | | | |-- daily_weather_raw_????.json | | | | |-- ... | | | | |-- daily_weather_????.csv | | | | |-- ... | | | | |-- hourly_weather_????.csv | | | | |-- ... | | | |-- weather_report | | | | |-- version_1 | | | | | |-- weather_report_????.json | | | | | |-- ... | | | | |-- version_2 | | | | |-- ... | | | |-- report_embedding # 天气报告的嵌入 | | | | |-- version_1 | | | | | |-- report_embedding_????.pkl | | | | | |-- ... | | | | |-- version_2 | | | | |-- ... | | |-- location_2 | | |-- ... | | |-- merged_report_embedding # 多个位置的合并嵌入(可选) | | | |-- version_1 | | | | |-- report_embedding_????.pkl | | | | |-- ... | | | |-- version_2 | | | |-- ... | |-- scripts # 数据处理、模型训练和评估的脚本 | |-- id_info.json # 整个数据集的元数据(未经预处理) | |-- static_info.json # 数据集的静态信息,包括数据集信息、通道信息、停机原因等 | |-- static_info_embeddings.pkl |-- subdataset2 |-- ......
id_info.json 结构
id_info.json 文件包含每个主题的元数据,结构如下:
json { "id_1": { "len": 1000, # 时间序列数据的长度 "sensor_downtime": { 1: { "time": [yyyy-mm-dd hh:mm:ss, yyyy-mm-dd hh:mm:ss], "index": [start_index, end_index] }, 2: { "time": [yyyy-mm-dd hh:mm:ss, yyyy-mm-dd hh:mm:ss], "index": [start_index, end_index] }, ... }, "other_info_1": "value_1", # 其他自定义信息 "other_info_2": "value_2", ... }, "id_2": ... }
static_info.json 结构
static_info.json 文件包含整个数据集的静态信息,结构如下:
json { "general_info": "description of the dataset", "downtime_prompt": "", "channel_info": { "id_1": { "channel_1": "channel 1 is xxx", "channel_2": "channel 2 is xxx" }, "id_2": { "channel_1": "channel 1 is xxx", "channel_2": "channel 2 is xxx" }, ... }, }




