elskow/Weather4cast
收藏Hugging Face2023-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elskow/Weather4cast
下载链接
链接失效反馈官方服务:
资源简介:
---
license: unlicense
---
# This repository contains the dataset of weather forecasting competition - Datavidia 2022
## Deskripsi File
- train.csv - Data yang digunakan untuk melatih model berisi fitur-fitur dan target
- train_hourly.csv - Data tambahan berisi fitur-fitur untuk setiap jam
- test.csv - Data uji yang berisi fitur-fitur untuk prediksi target
- test_hourly.csv - Data tambahan berisi fitur-fitur untuk setiap jam pada tanggal-tanggal yang termasuk dalam test.csv
- sample_submission.csv - File berisi contoh submisi untuk kompetisi ini
## Deskripsi Fitur
### train.csv
- time – Tanggal pencatatan
- temperature_2m_max (°C) – Temperatur udara tertinggi pada ketinggian 2 m di atas permukaan
- temperature_2m_min (°C) – Temperatur udara terendah pada ketinggian 2 m di atas permukaan
- apparent_temperature_max (°C) – Temperatur semu maksimum yang terasa
- apparent_temperature_min (°C) – Temperatur semu minimum yang terasa
- sunrise (iso8601) – Waktu matahari terbit pada hari itu dengan format ISO 8601
- sunset (iso8601) – Waktu matahari tenggelam pada hari itu dengan format ISO 8601
- shortwave_radiation_sum (MJ/m²) – Total radiasi matahari pada hari tersebut
- rain_sum (mm) – Jumlah curah hujan pada hari tersebut
- snowfall_sum (cm) – Jumlah hujan salju pada hari tersebut
- windspeed_10m_max (km/h) – Kecepatan angin maksimum pada ketinggian 10 m
- windgusts_10m_max (km/h) - Kecepatan angin minimum pada ketinggian 10 m
- winddirection_10m_dominant (°) – Arah angin dominan pada hari tersebut
- et0_fao_evapotranspiration (mm) – Jumlah evaporasi dan transpirasi pada hari tersebut
- elevation – Ketinggian kota yang tercatat
- city – Nama kota yang tercatat
### train_hourly.csv
- time – Tanggal dan jam pencatatan
- temperature_2m (°C) – Temperatur pada ketinggian 2 m
- relativehumidity_2m (%) – Kelembapan pada ketinggian 2 m
- dewpoint_2m (°C) – Titik embun; suhu ambang udara mengembun
- apparent_temperature (°C) – Temperatur semu yang dirasakan
- pressure_msl (hPa) – Tekanan udara pada ketinggian permukaan air laut rata-rata (mean sea level)
- surface_pressure (hPa) – Tekanan udara pada ketinggian permukaan daerah tersebut
- snowfall (cm) – Jumlah hujan salju pada jam tersebut
- cloudcover (%) – Persentase awan yang menutupi langit
- cloudcover_low (%) – Persentase cloud cover pada awan sampai ketinggian 2 km
- cloudcover_mid (%) – Persentase cloud cover pada ketinggian 2-6 km
- cloudcover_high (%) – Persentase cloud cover pada ketinggian di atas 6 km
- shortwave_radiation (W/m²) – Rata-rata energi pancaran matahari pada gelombang inframerah hingga ultraviolet
- direct_radiation (W/m²) – Rata-rata pancaran matahari langsung pada permukaan tanah seluas 1 m2
- diffuse_radiation (W/m²) – Rata-rata pancaran matahari yang dihamburkan oleh permukaan dan atmosfer
- direct_normal_irradiance (W/m²) – Rata-rata pancaran matahari langsung pada luas 1 m2 tegak lurus dengan arah pancaran
- windspeed_10m (km/h) – Kecepatan angin pada ketinggian 10 m
- windspeed_100m (km/h) – Kecepatan angin pada ketinggian 100 m
- winddirection_10m (°) – Arah angin pada ketinggian 10 m
- winddirection_100m (°) – Arah angin pada ketinggian 100 m
- windgusts_10m (km/h) – Kecepatan angin ketika terdapat angin kencang
- et0_fao_evapotranspiration (mm) – Jumlah evapotranspirasi (evaporasi dan transpirasi) pada jam tersebut
- vapor_pressure_deficit (kPa) – Perbedaan tekanan uap air dari udara dengan tekanan uap air ketika udara tersaturasi
- soil_temperature_0_to_7cm (°C) – Rata-rata temperatur tanah pada kedalaman 0-7 cm
- soil_temperature_7_to_28cm (°C) – Rata-rata temperatur tanah pada kedalaman 7-28 cm
- soil_temperature_28_to_100cm (°C) – Rata-rata temperatur tanah pada kedalaman 28-100 cm
- soil_temperature_100_to_255cm (°C) – Rata-rata temperatur tanah pada kedalaman 100-255 cm
- soil_moisture_0_to_7cm (m³/m³) – Rata-rata kelembapan air pada tanah untuk kedalaman 0-7 cm
- soil_moisture_7_to_28cm (m³/m³) – Rata-rata kelembapan air pada tanah untuk kedalaman 7-28 cm
- soil_moisture_28_to_100cm (m³/m³) – Rata-rata kelembapan air pada tanah untuk kedalaman 28-100 cm
- soil_moisture_100_to_255cm (m³/m³) – Rata-rata kelembapan air pada tanah untuk kedalaman 100-255 cm
- city – Nama kota
---
许可证:Unlicense
---
# 本仓库包含2022年Datavidia天气预报竞赛数据集
## 文件说明
- train.csv:用于模型训练的数据集,包含各类特征与目标变量
- train_hourly.csv:逐小时特征补充数据集
- test.csv:测试数据集,包含用于预测目标变量的特征
- test_hourly.csv:对应test.csv中日期的逐小时特征补充数据集
- sample_submission.csv:本竞赛的示例提交文件
## 特征说明
### train.csv
- time:记录日期
- temperature_2m_max (°C):地表2米高度处的最高气温(单位:摄氏度)
- temperature_2m_min (°C):地表2米高度处的最低气温(单位:摄氏度)
- apparent_temperature_max (°C):最高体感温度(单位:摄氏度)
- apparent_temperature_min (°C):最低体感温度(单位:摄氏度)
- sunrise (iso8601):当日日出时刻,格式遵循ISO 8601标准
- sunset (iso8601):当日日落时刻,格式遵循ISO 8601标准
- shortwave_radiation_sum (MJ/m²):当日总短波辐射(单位:兆焦/平方米)
- rain_sum (mm):当日总降水量(单位:毫米)
- snowfall_sum (cm):当日总降雪量(单位:厘米)
- windspeed_10m_max (km/h):地表10米高度处的最大风速(单位:千米/小时)
- windgusts_10m_max (km/h):地表10米高度处的阵风最低风速(单位:千米/小时)
- winddirection_10m_dominant (°):当日主导风向(单位:角度)
- et0_fao_evapotranspiration (mm):当日FAO参考蒸散量(单位:毫米)
- elevation:记录城市的海拔高度
- city:记录城市名称
### train_hourly.csv
- time:记录的日期与时刻
- temperature_2m (°C):地表2米高度处的气温(单位:摄氏度)
- relativehumidity_2m (%):地表2米高度处的相对湿度(单位:百分比)
- dewpoint_2m (°C):露点温度,即空气达到饱和时的温度(单位:摄氏度)
- apparent_temperature (°C):体感温度(单位:摄氏度)
- pressure_msl (hPa):平均海平面气压(单位:百帕)
- surface_pressure (hPa):当地地表气压(单位:百帕)
- snowfall (cm):该小时降雪量(单位:厘米)
- cloudcover (%):天空总云量占比(单位:百分比)
- cloudcover_low (%):2千米高度以下云量占比(单位:百分比)
- cloudcover_mid (%):2-6千米高度区间云量占比(单位:百分比)
- cloudcover_high (%):6千米高度以上云量占比(单位:百分比)
- shortwave_radiation (W/m²):单位时间内的平均短波辐射能量(单位:瓦/平方米)
- direct_radiation (W/m²):单位时间内的平均直接太阳辐射能量(单位:瓦/平方米)
- diffuse_radiation (W/m²):单位时间内的平均散射太阳辐射能量(单位:瓦/平方米)
- direct_normal_irradiance (W/m²):单位时间内与太阳直射方向垂直的平面上的平均直接辐射能量(单位:瓦/平方米)
- windspeed_10m (km/h):地表10米高度处的风速(单位:千米/小时)
- windspeed_100m (km/h):地表100米高度处的风速(单位:千米/小时)
- winddirection_10m (°):地表10米高度处的风向(单位:角度)
- winddirection_100m (°):地表100米高度处的风向(单位:角度)
- windgusts_10m (km/h):该小时的阵风风速(单位:千米/小时)
- et0_fao_evapotranspiration (mm):该小时的FAO参考蒸散量(单位:毫米)
- vapor_pressure_deficit (kPa):水汽压差,即空气实际水汽压与饱和水汽压的差值(单位:千帕)
- soil_temperature_0_to_7cm (°C):0-7厘米深度土层的平均地温(单位:摄氏度)
- soil_temperature_7_to_28cm (°C):7-28厘米深度土层的平均地温(单位:摄氏度)
- soil_temperature_28_to_100cm (°C):28-100厘米深度土层的平均地温(单位:摄氏度)
- soil_temperature_100_to_255cm (°C):100-255厘米深度土层的平均地温(单位:摄氏度)
- soil_moisture_0_to_7cm (m³/m³):0-7厘米深度土层的平均体积含水率(单位:立方米/立方米)
- soil_moisture_7_to_28cm (m³/m³):7-28厘米深度土层的平均体积含水率(单位:立方米/立方米)
- soil_moisture_28_to_100cm (m³/m³):28-100厘米深度土层的平均体积含水率(单位:立方米/立方米)
- soil_moisture_100_to_255cm (m³/m³):100-255厘米深度土层的平均体积含水率(单位:立方米/立方米)
- city:城市名称
提供机构:
elskow
原始信息汇总
数据集概述
数据集文件描述
- train.csv:用于训练模型的数据,包含特征和目标。
- train_hourly.csv:每小时额外数据,包含特征。
- test.csv:测试数据,包含特征用于预测目标。
- test_hourly.csv:测试日期的每小时额外数据。
- sample_submission.csv:竞赛提交示例文件。
特征描述
train.csv
- time:记录日期
- temperature_2m_max (°C):2米高度处最高气温
- temperature_2m_min (°C):2米高度处最低气温
- apparent_temperature_max (°C):最高体感温度
- apparent_temperature_min (°C):最低体感温度
- sunrise (iso8601):日出时间,ISO 8601格式
- sunset (iso8601):日落时间,ISO 8601格式
- shortwave_radiation_sum (MJ/m²):日总短波辐射
- rain_sum (mm):日总降雨量
- snowfall_sum (cm):日总降雪量
- windspeed_10m_max (km/h):10米高度处最大风速
- windgusts_10m_max (km/h):10米高度处最大阵风速度
- winddirection_10m_dominant (°):主导风向
- et0_fao_evapotranspiration (mm):日蒸发和蒸腾总量
- elevation:记录的城市海拔
- city:记录的城市名称
train_hourly.csv
- time:记录日期和时间
- temperature_2m (°C):2米高度处气温
- relativehumidity_2m (%):2米高度处相对湿度
- dewpoint_2m (°C):2米高度处露点温度
- apparent_temperature (°C):体感温度
- pressure_msl (hPa):平均海平面气压
- surface_pressure (hPa):地面气压
- snowfall (cm):小时降雪量
- cloudcover (%):总云量百分比
- cloudcover_low (%):低空云量百分比
- cloudcover_mid (%):中空云量百分比
- cloudcover_high (%):高空云量百分比
- shortwave_radiation (W/m²):短波辐射平均能量
- direct_radiation (W/m²):直接辐射平均能量
- diffuse_radiation (W/m²):散射辐射平均能量
- direct_normal_irradiance (W/m²):直接法向辐照度
- windspeed_10m (km/h):10米高度处风速
- windspeed_100m (km/h):100米高度处风速
- winddirection_10m (°):10米高度处风向
- winddirection_100m (°):100米高度处风向
- windgusts_10m (km/h):10米高度处阵风速度
- et0_fao_evapotranspiration (mm):小时蒸发和蒸腾总量
- vapor_pressure_deficit (kPa):水汽压差
- soil_temperature_0_to_7cm (°C):0-7厘米土壤温度
- soil_temperature_7_to_28cm (°C):7-28厘米土壤温度
- soil_temperature_28_to_100cm (°C):28-100厘米土壤温度
- soil_temperature_100_to_255cm (°C):100-255厘米土壤温度
- soil_moisture_0_to_7cm (m³/m³):0-7厘米土壤水分
- soil_moisture_7_to_28cm (m³/m³):7-28厘米土壤水分
- soil_moisture_28_to_100cm (m³/m³):28-100厘米土壤水分
- soil_moisture_100_to_255cm (m³/m³):100-255厘米土壤水分
- city:城市名称
搜集汇总
数据集介绍

构建方式
在气象科学领域,高质量的数据集是推动预测模型发展的基石。Weather4cast数据集通过系统化采集多源气象观测数据构建而成,涵盖日尺度与小时尺度的精细化记录。其构建过程整合了地面气象站、卫星遥感及数值模拟输出,确保了数据的时空连续性与物理一致性。数据经过严格的质控流程,剔除了异常值与缺失记录,并采用标准化格式进行存储,为机器学习模型提供了可靠的训练基础。
使用方法
针对气象预测任务,该数据集的使用遵循结构化的工作流程。研究人员可首先利用train.csv中的日尺度数据训练初步模型,再结合train_hourly.csv的高时间分辨率数据进行精细化调优或序列建模。测试集test.csv与test_hourly.csv则用于评估模型的泛化性能。数据集中明确的特征描述与统一的计量单位,降低了数据预处理难度,支持直接应用于回归、时间序列预测或空间插值等机器学习任务,并通过提供的提交样例规范结果输出格式。
背景与挑战
背景概述
气象预报作为地球科学和计算智能交叉的前沿领域,长期致力于通过数据驱动模型提升预测精度。elskow/Weather4cast数据集诞生于2022年Datavidia竞赛框架下,由研究机构或数据科学家团队构建,旨在应对高分辨率、多变量时序气象预测的核心研究问题。该数据集整合了地表至大气层的多维观测指标,如温度、湿度、辐射及土壤参数,覆盖城市尺度的精细化数据,为发展深度学习模型提供了关键实验基础,显著推动了短期气象预报与气候分析领域的技术演进。
当前挑战
该数据集致力于解决多变量时序气象预测的挑战,其难点在于气象系统的高度非线性和混沌特性,要求模型能精准捕捉温度、降水、风速等要素的复杂相互作用及时空依赖性。在构建过程中,挑战主要源于多源异构数据的融合与质量控制,包括不同传感器精度差异、缺失值处理、以及城市尺度地理变异性的标准化表达,这些因素均对数据的一致性与可靠性提出了严峻考验。
常用场景
经典使用场景
在气象学与人工智能交叉领域,Weather4cast数据集为短期天气预测模型的训练与评估提供了关键支撑。该数据集整合了多尺度气象观测数据,包括日级与小时级的温度、降水、风速及辐射等变量,其经典使用场景在于驱动机器学习算法进行未来天气状态的精准预报。研究人员常利用其结构化时序特征,构建深度神经网络模型,以模拟大气动态演变过程,从而在竞赛环境中优化预测精度,推动数据驱动的气象分析范式发展。
解决学术问题
Weather4cast数据集有效应对了气象预测中高维非线性系统的建模挑战,解决了传统数值天气预报对计算资源依赖过强、局部精细化不足的学术难题。通过提供覆盖多城市、多层次的实测数据,该数据集支持学者探索时空序列预测、多变量回归及不确定性量化等核心问题,促进了统计学习与大气科学的深度融合,为可解释、自适应预测方法的创新奠定了实证基础。
实际应用
在实际气象服务中,Weather4cast数据集能够赋能智慧农业、城市应急管理及可再生能源调度等场景。基于其高分辨率气象指标,农业管理者可优化灌溉与作物保护策略;城市防灾部门可提前预警极端天气事件;风电与光伏电站则能借助精准的风速与辐射预测,实现电网负荷的平衡调控,从而提升社会经济活动的气候韧性。
数据集最近研究
最新研究方向
在气象预测领域,elskow/Weather4cast数据集作为Datavidia 2022竞赛的核心资源,正推动着高分辨率时空天气建模的前沿探索。该数据集整合了多尺度气象变量,包括地表温度、辐射通量、土壤温湿度剖面以及城市高程信息,为深度学习模型提供了丰富的训练基础。当前研究热点聚焦于利用Transformer架构与图神经网络,融合小时级与日级数据,以提升极端天气事件的预测精度,同时结合物理约束的机器学习方法,增强模型的可解释性与泛化能力。这一进展不仅响应了全球气候变化背景下精准气象服务的迫切需求,也为可再生能源调度、农业风险管理等应用场景提供了关键技术支持,彰显了数据驱动方法在现代气象科学中的深远影响。
以上内容由遇见数据集搜集并总结生成



