ERA5_patchify
收藏Hugging Face2026-04-19 更新2026-04-20 收录
下载链接:
https://huggingface.co/datasets/meteolibre-dev/ERA5_patchify
下载链接
链接失效反馈官方服务:
资源简介:
ERA5 Patchified Dataset 是一个从 ECMWF ERA5 再分析数据中提取的网格化数据集,覆盖全球 0.25° 网格,划分为 128×128 的非重叠补丁,数据以 float16 格式存储并经过归一化处理。该数据集专为机器学习训练设计,可与 IFS HRES 开放数据配合使用,实现“在再分析数据上训练,在预报数据上推理”的工作流程。数据集包含 77 个通道的天气数据,分为 13 个地表通道和 64 个气压层通道(8 个变量 × 8 个气压层)。每个补丁包含 T 个连续的分析快照,时间间隔为 6 小时(默认 T=3,即 18 小时窗口)。数据以 Parquet 文件格式存储,包含详细的列描述和归一化信息。数据集还包含 128×128 的高程地图,以 float16 格式存储。数据来源为 Copernicus Climate Data Store (CDS),授权协议为 CC-BY-4.0。
创建时间:
2026-04-18
原始信息汇总
ERA5 Patchified 数据集概述
数据集基本信息
- 名称:ERA5 Patchified Dataset
- 许可证:CC-BY-4.0
- 任务类别:表格回归、图像到图像
- 标签:气象学、天气、ERA5、ECMWF、再分析、网格数据、数据块
- 数据规模:100K < n < 1M
- 来源:ECMWF ERA5 再分析数据
数据内容与结构
- 数据描述:从 ECMWF ERA5 再分析数据中提取的 0.25° 全球网格数据块,划分为 128×128 的非重叠数据块,包含 float16 归一化通道。专为机器学习训练设计,可与 IFS HRES 开放数据配合使用,实现“在再分析数据上训练,在预报数据上推理”的工作流程。
- 文件格式:Parquet
- 命名规范:
era5_{first_snapshot}_{region}_patches_{group_idx:04d}_{file_idx:04d}.parquet
数据列说明
| 列名 | 类型 | 描述 |
|---|---|---|
ifs_data |
bytes | (T, C, H, W) 数据块张量的原始 float16 字节 |
ifs_shape |
list[int] | 形状元组,例如 [3, 77, 128, 128] |
ifs_dtype |
str | "e" (numpy half / float16) |
channel_names |
list[str] | 有序的通道名称 |
channel_offsets |
list[float] | 每通道归一化偏移量 |
channel_scales |
list[float] | 每通道归一化比例 |
elevation_data |
bytes | Float16 高程数据块 (128, 128) |
elevation_shape |
list[int] | (128, 128) |
elevation_dtype |
str | "e" (float16) |
epsg |
int | 坐标参考系,始终为 4326 |
lon |
float | 数据块中心经度 |
lat |
float | 数据块中心纬度 |
patch_x_idx |
int | 区域网格中的 X 索引 |
patch_y_idx |
int | 区域网格中的 Y 索引 |
region |
str | 区域名称(例如 europe, global) |
snapshot_labels |
list[str] | T 个快照的 ISO 标签 |
time_spacing_hours |
int | 快照间的小时数 (6) |
resolution |
float | 网格分辨率(度)(0.25) |
patch_size |
int | 空间数据块大小 (128) |
source |
str | 始终为 "era5" |
通道信息(共77个)
地面通道(13个)
| # | 名称 | 描述 | 单位 | 偏移量 | 比例 |
|---|---|---|---|---|---|
| 1 | mucape |
对流有效位能(基于地面) | J kg⁻¹ | 0 | 500 |
| 2 | 2t |
2米温度 | K | 273.15 | 40 |
| 3 | 2d |
2米露点温度 | K | 273.15 | 30 |
| 4 | 10u |
10米 U 风分量 | m s⁻¹ | 0 | 30 |
| 5 | 10v |
10米 V 风分量 | m s⁻¹ | 0 | 30 |
| 6 | 100u |
100米 U 风分量 | m s⁻¹ | 0 | 40 |
| 7 | 100v |
100米 V 风分量 | m s⁻¹ | 0 | 40 |
| 8 | tp |
总降水量 | m | 0 | 0.05 |
| 9 | sp |
地面气压 | Pa | 101325 | 5000 |
| 10 | msl |
平均海平面气压 | Pa | 101325 | 5000 |
| 11 | tcwv |
总水汽柱含量 | kg m⁻² | 0 | 50 |
| 12 | tcc |
总云量 | (0–1) | 0 | 1 |
| 13 | lsm |
陆地-海洋掩膜 | (0–1) | 0 | 1 |
气压层通道(8个变量 × 8个层次 = 64个通道)
- 层次:1000, 925, 850, 700, 500, 300, 250, 200 hPa
- 变量前缀:
t_{level}(温度)、u_{level}(U风分量)、v_{level}(V风分量)、q_{level}(比湿)、w_{level}(垂直速度)、gh_{level}(位势高度)、vo_{level}(相对涡度)、r_{level}(相对湿度) - 完整通道名称示例:
t_850表示 850 hPa 处的温度
归一化处理
- 数值以 float16 归一化形式存储:
normalized = (raw_value - offset) / scale - 原始值恢复公式:
raw_value = normalized * scale + offset - 归一化常数与 IFS HRES 数据集完全相同,支持无缝交叉训练(在 ERA5 上训练,在 IFS HRES 上推理),无需重新归一化。
时间结构
- 每个数据块包含 T 个连续的分析快照,间隔 6 小时(UTC 00, 06, 12, 18 时次)。
- 默认 T=3(18小时窗口)。
- 连续的数据块组以 T×6 小时的步长推进,以实现无间隙的连续时间覆盖。
空间覆盖
| 区域 | 边界框 (lon_min, lat_min, lon_max, lat_max) |
|---|---|
global |
(-180, -90, 180, 90) |
europe |
(-30, 30, 45, 75) |
north_atlantic |
(-80, 20, 0, 70) |
north_america |
(-140, 15, -50, 75) |
asia |
(50, 0, 160, 75) |
- 网格:0.25° × 0.25° 规则经纬度网格 (EPSG:4326)。
- 数据块:非重叠的 128×128 网格单元(在 0.25° 分辨率下约为 32° × 32°)。
与 IFS HRES Patchified 数据集的比较
| 方面 | ERA5(本数据集) | IFS HRES |
|---|---|---|
| 类型 | 再分析(最佳估计历史数据) | 业务分析(近实时数据) |
| 时间范围 | 1940年至今 | 仅滚动2-3天 |
| 延迟 | ~5天 (ERA5T) / ~2个月(最终产品) | 近实时 |
| 分辨率 | 0.25° | 0.25°(开放数据)/ 0.08°(许可数据) |
| 一致性 | 再分析 = 物理一致 | 模式升级会导致中断 |
| CAPE | 基于地面的 CAPE | 最不稳定 CAPE |
| 通道数 | 77(无 tprate) |
78(包含 tprate) |
| 位势 | 除以 9.80665 后的高度 (m) | 高度 (m) |
| 归一化 | 相同的偏移量/比例 | 相同的偏移量/比例 |
- 推荐工作流程:在 ERA5(多年一致数据)上训练,在 IFS HRES(实时可用性)上推理。共享的归一化和通道命名使其成为即插即用的切换。
高程数据
- 每个数据块包含一个 128×128 的 float16 高程图,源自全球 DEM,并重投影到相同的 0.25° 网格。
- 高程以原始值存储(米,海拔高度),未归一化。
数据来源
- 通过
cdsapiPython 客户端从 Copernicus Climate Data Store (CDS) 下载。 - 地面数据:https://cds.climate.copernicus.eu/datasets/reanalysis-era5-single-levels
- 气压层数据:https://cds.climate.copernicus.eu/datasets/reanalysis-era5-pressure-levels
许可证信息
- CC-BY-4.0 — 请将 ECMWF / Copernicus Climate Change Service 注明为数据来源。
- 相关条款:https://cds.climate.copernicus.eu/api/v2/terms/static/licence-to-use-copernicus-products.pdf
- ERA5 许可证:https://cds.climate.copernicus.eu/datasets/reanalysis-era5-single-levels/licence
搜集汇总
数据集介绍

构建方式
ERA5_patchify数据集基于欧洲中期天气预报中心(ECMWF)的ERA5再分析资料构建,该资料以0.25度分辨率覆盖全球网格。原始数据通过非重叠的128×128网格块进行分块处理,形成空间上连续的补丁。每个补丁包含多个时间步长的连续快照,时间间隔为6小时,通常默认包含三个时间步长,以提供连续的时间覆盖。数据以Parquet格式存储,其中气象变量经过归一化处理并保存为float16类型,同时附带高程数据及元信息,确保数据结构的完整性与高效访问。
特点
该数据集的核心特点在于其多通道、高时空分辨率的设计,共包含77个气象变量通道,涵盖13个地表变量和64个气压层变量,如温度、风速、湿度和位势高度等。数据经过统一的归一化处理,使用与IFS HRES数据集相同的偏移量和缩放因子,实现了再分析与预报数据间的无缝转换。空间上,数据集提供全球及多个区域(如欧洲、北大西洋)的覆盖,每个补丁约代表32度×32度的区域,并附带原始高程信息,为机器学习模型提供了丰富且一致的气象输入特征。
使用方法
使用该数据集时,用户可通过Python的PyArrow库读取Parquet文件,并利用元数据中的形状和类型信息重建浮点16张量。归一化后的数据可通过提供的偏移量和缩放因子进行反归一化,恢复原始物理值。数据集支持与IFS HRES预报数据配合使用,实现“再分析训练-预报推理”的工作流程。在应用中,用户可依据区域和时间标签选择特定补丁,结合高程数据,构建时空序列输入,适用于图像到图像或表格回归等机器学习任务,以提升气象预测模型的性能。
背景与挑战
背景概述
ERA5_patchify数据集源于欧洲中期天气预报中心(ECMWF)发布的ERA5再分析资料,该资料作为气象学领域的高质量历史气候基准,自2017年逐步公开以来,已成为气候建模与天气预测研究的关键数据源。本数据集由Meteolibre等研究团队于近年构建,旨在将全球0.25度分辨率的ERA5网格数据切割为128×128的非重叠空间区块,并整合77个气象变量通道,以适配机器学习模型的高效训练。其核心研究问题聚焦于如何利用再分析数据的长期一致性来优化气象预测模型的泛化能力,特别是通过“再分析训练-预报推断”的工作流程,为实时天气预测提供稳健的深度学习基础,显著推动了气象人工智能从理论探索向业务化应用的转型。
当前挑战
该数据集致力于解决高分辨率气象预测的领域挑战,即如何从海量、多维的全球网格数据中提取具有时空一致性的特征,以支持模型在复杂大气动力学过程中的准确建模。构建过程中的技术挑战主要体现在数据预处理环节:首先,需将原始ERA5数据从异构的时空维度统一重采样至标准网格,并确保77个气象变量在归一化过程中的物理意义得以保留;其次,设计非重叠的区块切割策略时,必须平衡空间覆盖的完整性与计算效率,同时维持区块间的地理参考信息精确对齐。此外,为实现与IFS HRES预报数据的无缝对接,数据集的归一化参数必须严格匹配,这对跨数据源的协同训练提出了严格的工程一致性要求。
常用场景
经典使用场景
在气象学与气候科学领域,ERA5_patchify数据集为机器学习模型训练提供了标准化的历史再分析数据。其经典使用场景在于支持基于深度学习的天气预测模型开发,特别是针对高分辨率时空序列的建模任务。数据集将全球0.25度网格的ERA5再分析数据划分为128×128的非重叠补丁,并包含77个标准化气象变量通道,为研究者提供了可直接输入神经网络的张量格式数据。这种结构化的数据组织形式极大简化了模型训练流程,使得研究人员能够专注于算法设计与性能优化。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作,特别是在基于Transformer架构的气象预测模型开发方面。研究者利用其时空补丁结构,开发了专门处理地球系统数据的视觉Transformer变体,显著提升了中期天气预报的准确性。同时,该数据集促进了多模态气象模型的发展,将再分析数据与卫星观测、雷达数据等进行融合。在可解释性人工智能领域,基于该数据集的敏感性分析研究揭示了不同气象变量对预测结果的贡献度,为物理约束机器学习方法的创新提供了数据基础。
数据集最近研究
最新研究方向
在气象科学与人工智能交叉领域,ERA5_patchify数据集凭借其高分辨率、多变量时空网格结构,正推动天气预测模型向数据驱动范式深刻转型。研究前沿聚焦于利用该数据集的大规模历史再分析数据,训练深度神经网络以捕捉复杂的大气动力学过程,特别是发展基于Transformer架构的时空预测模型,实现从再分析到实时预报的无缝迁移。热点方向包括构建‘训练于再分析、推理于预报’的标准化工作流,以应对气候变化背景下极端天气事件频发的精准预测需求,这显著提升了气象模型的泛化能力与计算效率,为下一代数值天气预报系统提供了关键数据基石。
以上内容由遇见数据集搜集并总结生成



