CIMIS Hourly Data - Multiple Stations
收藏github2025-12-06 更新2025-12-07 收录
下载链接:
https://github.com/Austinsucy/F3-Frost-Data-Challenge---Data-Slayers
下载链接
链接失效反馈官方服务:
资源简介:
由加州灌溉管理信息系统提供,该数据集包含2010-2025年间加州18个气象站的每小时气象测量数据。数据文件包括多个站点的CSV文件,每个文件包含气温、相对湿度、露点、土壤温度、太阳辐射、风速和风向、参考蒸散发(ETo)以及每小时时间戳和质量控制标志。
Provided by the California Irrigation Management Information System, this dataset encompasses hourly meteorological measurement data collected from 18 meteorological stations throughout California during the period from 2010 to 2025. The dataset is distributed as CSV files for each station, with each file containing air temperature, relative humidity, dew point temperature, soil temperature, solar radiation, wind speed and direction, reference evapotranspiration (ETo), hourly timestamps, and quality control flags.
创建时间:
2025-11-16
原始信息汇总
数据集概述
数据集来源
- 数据集名称:CIMIS Hourly Data - Multiple Stations
- 数据提供方:California Irrigation Management Information System (CIMIS)
- 数据收集时间范围:2010年至2025年
- 数据收集地点:美国加利福尼亚州内的18个气象站
数据集内容与结构
- 数据格式:CSV文件(包含一个压缩文件
cimis_all_stations.csv.gz) - 数据文件列表:
2-fivepoints.csv7-firebaugh.csv15-stratford.csv39-parlier.csv47-brentwood.csv70-manteca.csv71-modesto.csv80-fresnostate.csv105-westlands.csv124-panoche.csv125-arvinedison.csv131-fairoaks.csv146-belridge.csv182-delano.csv194-oakdale.csv195-auburn.csv205-coalinga.csv206-denairii.csvcimis_all_stations.csv.gz
数据变量(每文件包含)
- 气象变量:
- 气温
- 相对湿度
- 露点温度
- 土壤温度
- 太阳辐射
- 风速与风向
- 参考蒸散量
- 时间与质量标识:
- 每小时时间戳
- 质量控制标识
数据集应用背景
- 应用挑战:F3霜冻风险预测数据挑战赛
- 主办方:加州大学圣地亚哥分校与国家数据平台
- 核心目标:利用该数据集开发机器学习模型,以提前3、6、12、24小时准确预测霜冻风险。
相关建模信息
- 目标变量:二元霜冻风险指示器。定义为未来指定时间内气温 ≤ 0°C 时为1(有霜冻事件),否则为0。
- 使用的特征类型:
- 原始气象特征
- 衍生物理变量(如露点温差、冷却速率)
- 时间特征(滞后气温、滚动统计量、时间周期编码)
- 气象站元数据
搜集汇总
数据集介绍

构建方式
该数据集由加州灌溉管理信息系统(CIMIS)精心构建,覆盖了2010年至2025年间加州境内18个气象站的逐小时观测记录。数据采集过程严格遵循标准化气象监测协议,每个站点均配备了高精度传感器,持续记录空气温度、相对湿度、露点、土壤温度、太阳辐射、风速与风向以及参考蒸散量等关键气象参数。所有数据均附带时间戳及质量控制标志,确保了时序的一致性与测量的可靠性,为农业气象研究提供了坚实的数据基础。
特点
数据集的核心特点在于其高时空分辨率与多维气象要素的集成。时间维度上,以小时为单位的连续观测能够捕捉霜冻风险的细微动态变化;空间维度上,18个站点分布于加州不同农业区域,反映了地理与气候的多样性。数据集中不仅包含原始观测值,还衍生出露点温差、冷却速率等物理变量,并结合滞后温度、滚动统计量及时间周期性编码,构建了丰富的特征体系。这种多源信息融合使数据集特别适用于机器学习模型训练,以预测未来3至24小时内的霜冻风险事件。
使用方法
使用该数据集时,研究人员可通过加载压缩文件cimis_all_stations.csv.gz或各站点独立CSV文件获取原始数据。建议首先进行数据清洗,依据质量控制标志剔除异常值,并统一时间序列格式。随后可参考提供的建模流程,从原始变量中提取气象特征、时间特征及站点元数据,构建以温度是否低于零摄氏度为标准的二值化霜冻风险标签。数据集可直接应用于LightGBM等梯度提升模型或集成蒸馏框架的训练与验证,同时也支持与传统启发式规则如露点经验法则进行对比分析,以评估预测性能。
背景与挑战
背景概述
CIMIS Hourly Data - Multiple Stations 数据集由加利福尼亚灌溉管理信息系统(CIMIS)构建,其历史可追溯至2010年,持续更新至2025年,涵盖加利福尼亚州18个气象站的逐时观测记录。该数据集的核心研究问题聚焦于精准农业气象学,旨在通过高时空分辨率的气象参数,如气温、相对湿度、土壤温度及参考蒸散量等,支持霜冻风险预测模型的开发。作为美国西部农业水资源管理的关键基础设施,CIMIS系统由加州水资源部与加州大学戴维斯分校等机构合作维护,其数据不仅推动了智能灌溉决策,也为极端天气事件预警提供了科学依据,显著提升了农业气候适应性与资源利用效率。
当前挑战
该数据集所针对的霜冻风险预测问题,面临多重挑战:气象过程的非线性与时空异质性使得短期精准预报极为复杂,传统经验规则如露点温度法往往在多变地形中失效;同时,构建过程中需整合多站点的长期序列数据,涉及大量缺失值与质量控制标记的处理,确保数据一致性与可靠性成为关键难点。此外,特征工程需融合物理推导变量与时间序列编码,以捕捉霜冻形成的微妙前兆,这对机器学习模型的泛化能力与计算效率提出了更高要求。
常用场景
经典使用场景
在农业气象学领域,CIMIS Hourly Data - Multiple Stations数据集常被用于构建精准的霜冻风险预测模型。该数据集汇集了加利福尼亚州多个气象站的小时级观测数据,包括气温、湿度、土壤温度及太阳辐射等关键变量,为研究人员提供了高时空分辨率的连续记录。通过整合这些多源气象特征,学者能够训练机器学习算法,以提前3至24小时预测低温事件的发生,从而为农业生产中的防灾减灾决策提供科学依据。
衍生相关工作
基于该数据集衍生的经典研究包括轻量级梯度提升机与知识蒸馏集成模型的创新应用。例如,有工作通过构建高容量教师模型训练简化学生模型,在保持预测性能的同时降低了计算成本,为边缘设备上的实时气象分析提供了可能。此外,该数据还催生了多站数据融合与时空插值算法的改进,促进了区域尺度气象图谱的生成,这些成果已被延伸至干旱监测、灌溉调度等相邻领域,形成了跨学科的技术扩散效应。
数据集最近研究
最新研究方向
在农业气象学与精准农业领域,CIMIS小时数据多站点数据集正推动霜冻风险预测研究迈向智能化前沿。当前研究聚焦于利用机器学习模型,特别是集成学习与知识蒸馏技术,对多站点、多时间尺度的气象时序数据进行深度挖掘,以实现对未来3至24小时霜冻事件的精准预警。这些模型不仅整合了温度、湿度、风速等传统气象特征,还创新性地引入了露点差、冷却速率等衍生物理变量,以及时间滞后与周期性编码特征,显著提升了预测的时空泛化能力。相关研究呼应了全球气候变化背景下农业防灾减灾的紧迫需求,通过数据驱动方法优化传统经验规则,为加州乃至类似气候区的灌溉管理、作物保护提供了科学决策支持,体现了气象大数据在可持续农业中的关键价值。
以上内容由遇见数据集搜集并总结生成



