five

California_ISO

收藏
Hugging Face2025-08-09 更新2025-08-10 收录
下载链接:
https://huggingface.co/datasets/wxcai/California_ISO
下载链接
链接失效反馈
官方服务:
资源简介:
WIATS数据集是一个以天气为中心的、具有干预意识的多模态时间序列数据集。它包含了来自California ISO的天气数据,并组织有原始数据、基于规则的插值时间序列数据、天气报告以及相关的脚本和元数据。数据集适用于时间序列预测任务,并为每个主体提供了详细的元数据信息。

The WIATS dataset is a weather-centric, intervention-aware multimodal time series dataset. It contains weather data sourced from the California ISO, and includes raw data, rule-based interpolated time series data, weather reports, as well as associated scripts and metadata. The dataset is applicable to time series forecasting tasks, and provides detailed metadata information for each subject within the dataset.
创建时间:
2025-08-07
原始信息汇总

WIATS: Weather-centric Intervention-Aware Time Series Multimodal Dataset 概述

数据集基本信息

  • 任务类别: 时间序列预测
  • 语言: 英文
  • 标签: TimeSeries, Multimodal, Heterogeneous
  • 数据规模: 1B < n < 10B

数据来源

数据集结构

数据集按以下结构组织:

|-- subdataset1 | |-- raw_data # 原始数据文件 | |-- time_series # 基于规则插补的数据文件 | | |-- id_1.parquet # 每个主题的时间序列数据,可以是多元的,格式可以是csv、parquet等 | | |-- id_2.parquet | | |-- ... | | |-- id_info.json # 每个主题的元数据 | |-- weather | | |-- location_1 | | | |-- raw_data | | | | |-- daily_weather_raw_????.json | | | | |-- ... | | | | |-- daily_weather_????.csv | | | | |-- ... | | | | |-- hourly_weather_????.csv | | | | |-- ... | | | |-- weather_report | | | | |-- version_1 | | | | | |-- weather_report_????.json | | | | | |-- ... | | | | |-- version_2 | | | | |-- ... | | | |-- report_embedding # 天气报告的嵌入 | | | | |-- version_1 | | | | | |-- report_embedding_????.pkl | | | | | |-- ... | | | | |-- version_2 | | | | |-- ... | | |-- location_2 | | |-- ... | | |-- merged_report_embedding # 多个位置的合并嵌入(可选) | | | |-- version_1 | | | | |-- report_embedding_????.pkl | | | | |-- ... | | | |-- version_2 | | | |-- ... | |-- scripts # 数据处理、模型训练和评估的脚本 | |-- id_info.json # 整个数据集的元数据(未经预处理) | |-- static_info.json # 数据集的静态信息,包括数据集信息、通道信息、停机原因等 | |-- static_info_embeddings.pkl |-- subdataset2 |-- ......

id_info.json 结构

id_info.json 文件包含每个主题的元数据,结构如下:

json { "id_1": { "len": 1000, # 时间序列数据的长度 "sensor_downtime": { 1: { "time": [yyyy-mm-dd hh:mm:ss, yyyy-mm-dd hh:mm:ss], "index": [start_index, end_index] }, 2: { "time": [yyyy-mm-dd hh:mm:ss, yyyy-mm-dd hh:mm:ss], "index": [start_index, end_index] }, ... }, "other_info_1": "value_1", # 其他自定义信息 "other_info_2": "value_2", ... }, "id_2": ... }

static_info.json 结构

static_info.json 文件包含整个数据集的静态信息,结构如下:

json { "general_info": "description of the dataset", "downtime_prompt": "", "channel_info": { "id_1": { "channel_1": "channel 1 is xxx", "channel_2": "channel 2 is xxx" }, "id_2": { "channel_1": "channel 1 is xxx", "channel_2": "channel 2 is xxx" }, ... }, }

搜集汇总
数据集介绍
main_image_url
构建方式
在能源管理与气象科学交叉领域,California_ISO数据集采用多模态异构架构构建,其核心数据源自加州独立系统运营商(CAISO)的实时电力监测平台。数据集通过规则式插值法处理原始时序数据,并建立三级目录体系——原始数据层、时序处理层和气象关联层,其中气象数据按地理位置分层存储,包含逐小时/日的结构化观测数据与非结构化天气报告,同时利用嵌入技术将文本报告转化为向量表征,形成时空对齐的多源信息矩阵。
使用方法
研究者可通过解析Parquet格式的时序文件与JSON元数据文件快速构建分析管道,利用内嵌的Python脚本处理气象报告嵌入与多模态数据对齐。典型应用场景包括:加载特定主体的电力负荷时序后,关联对应地理位置的hourly_weather.csv分析极端天气事件的影响;或调用report_embedding下的预生成向量,结合静态信息嵌入构建跨模态预测模型。数据集层级化存储设计支持灵活的子集抽取,便于针对不同空间尺度或时间分辨率展开对比实验。
背景与挑战
背景概述
California_ISO数据集是一个以天气为核心的多模态时间序列数据集,旨在解决能源管理与气象因素之间的复杂关联问题。该数据集由加州独立系统运营商(California ISO)提供,主要聚焦于电力需求预测与天气干预效应分析。随着可再生能源在电网中的占比不断提升,气象条件对电力供需平衡的影响日益显著,这一数据集的构建为研究人员提供了跨学科研究的宝贵资源。数据集采用多层级结构组织,包含原始时间序列数据、气象报告及其嵌入表示,支持从数据清洗到模型训练的全流程研究。
当前挑战
该数据集面临的核心挑战主要体现在两方面:在领域问题层面,如何准确建模极端天气事件对电力负荷的非线性影响仍是一个开放性问题,特别是当气象数据与电力消费数据存在时空不匹配时;在数据构建层面,多源异构数据的融合处理极具挑战性,包括传感器故障导致的数据缺失修复、不同时间分辨率数据的对齐,以及非结构化气象报告的特征提取等问题。这些挑战使得开发鲁棒的时间序列预测模型需要创新的跨模态学习方法。
常用场景
经典使用场景
在能源管理与气象研究领域,California_ISO数据集因其多模态和异构特性,成为时间序列预测研究的经典基准。该数据集整合了加州独立系统运营商(CAISO)的电力负荷数据与精细化气象观测,为研究者提供了分析极端天气事件对电网需求波动的理想实验平台。其多元时间戳对齐的传感器数据与气象报告嵌入表示,特别适合验证跨模态融合算法在短期电力负荷预测中的有效性。
解决学术问题
该数据集显著解决了能源预测领域两大核心难题:一是突破了传统单模态时间序列预测的局限性,通过天气干预因子与电力数据的多模态关联,揭示了气象变量对电网负载的动态影响机制;二是其标注的传感器停机时段为数据缺失场景下的鲁棒性预测提供了评估标准,推动了电力系统异常检测与修复策略的研究进展。
实际应用
在智慧电网建设实践中,该数据集支撑了加州电力调度中心的决策优化系统开发。基于其构建的预测模型能提前72小时精准预测热浪期间的用电峰值,辅助实现发电资源动态调配。相关技术已延伸至可再生能源并网管理领域,通过分析风速/日照与负载的时空关联性,有效提升了风电和光伏发电的消纳效率。
数据集最近研究
最新研究方向
随着气候变化对能源系统的影响日益显著,California_ISO数据集在能源时间序列预测领域的研究方向正逐渐转向多模态异构数据的深度融合。该数据集整合了气象数据与电网运行数据,为研究极端天气事件对电力负荷的实时影响提供了独特视角。近期研究热点集中在基于Transformer的跨模态注意力机制,旨在解决传统单模态预测模型在突发气象干扰下的性能局限。在碳中和目标推动下,此类研究对构建具有气候韧性的智能电网系统具有重要战略意义,特别是在加州等可再生能源占比较高的地区,精准的负荷预测可直接优化电力调度,降低碳排放。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作