gik-gefs-par

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/E4DRR/gik-gefs-par

下载链接

链接失效反馈

官方服务：

资源简介：

GIK-GEFS-PAR是一个轻量级的Parquet参考文件数据集，用于高效访问NOAA GEFS集合预报数据。该数据集通过虚拟引用技术将每日24+ GB的GRIB数据压缩为约250 MB的月度参考文件，支持基于Dask的并行分析而无需下载原始GRIB文件。数据集包含指向NOAA GEFS GRIB文件的S3字节范围引用，允许用户仅获取所需的变量、成员和时间步长（通常仅需原始数据的2-5%）。数据集覆盖2020年9月25日至2025年12月31日，总计约47 TB的GRIB数据引用。数据集结构包括月度聚合文件和目录索引，支持通过PyArrow和HuggingFace的范围读取功能高效查询。数据集适用于气象和气候分析任务，包含约70个地表和气压层变量，如总降水（tp）、2米温度（t2m）和表面压力（sp）。该项目由ICPAC开发，用于东非地区的气候风险监测。

GIK-GEFS-PAR is a lightweight Parquet reference file dataset for efficient access to NOAA GEFS ensemble forecast data. The dataset compresses daily 24+ GB GRIB data into approximately 250 MB monthly reference files using virtual referencing technology, supporting parallel analysis based on Dask without downloading the original GRIB files. The dataset contains S3 byte range references to NOAA GEFS GRIB files, allowing users to fetch only the required variables, members, and time steps (typically only 2-5% of the original data). The dataset covers the period from September 25, 2020, to December 31, 2025, totaling approximately 47 TB of GRIB data references. The dataset structure includes monthly aggregated files and directory indexes, supporting efficient queries through PyArrow and HuggingFaces range reading capabilities. The dataset is suitable for meteorological and climate analysis tasks, containing approximately 70 surface and pressure level variables such as total precipitation (tp), 2-meter temperature (t2m), and surface pressure (sp). The project was developed by ICPAC for climate risk monitoring in East Africa.

创建时间：

2026-04-22

原始信息汇总

GIK-GEFS-PAR 数据集概述

核心功能

轻量级 Parquet 参考文件，将 NOAA GEFS 集合预报的每日 24+ GB 的 GRIB 数据转换为约 250 MB 的月度虚拟参考文件，支持基于 Dask 的并行分析，无需下载原始 GRIB 文件。

每个参考文件包含 [zarr_key, [s3_url, byte_offset, byte_length]] 元组，指向 AWS S3 上的 NOAA GEFS GRIB 文件，通过字节范围读取仅获取所需变量、成员和时间步，通常读取量仅为原始数据的 2–5%。

数据规模对比

项目	数值
每次运行时间步	81（0–240 小时，3 小时间隔）
每时间步成员数	30（gep01 – gep30）
网格分辨率	0.25° 全球（721 × 1440）
每日 GRIB 体积（00z，所有成员）	~24 GB

年度 GRIB 数据引用量：

年份	覆盖天数	引用 GRIB 总量
2020（9月25日起）	98	~2.4 TB
2021	365	~8.9 TB
2022	365	~8.9 TB
2023	365	~8.9 TB
2024	366	~8.9 TB
2025	365	~8.9 TB
总计	1,924 天	~47 TB

数据集结构

catalog.parquet # 791 KB，57,780 行索引 run_par_gefs_agg/ monthly_agg/ {YYYY}/{MM}_00z.parquet # 每月一个优化 Parquet 文件

每个月度汇总文件按 (date, member) 排序，row_group_size=60。利用 PyArrow 的谓词下推，单日期查询仅读取约 5–10 MB。

索引文件（catalog.parquet）

列名	示例	描述
`year`	`2024`	预报年份
`month`	`06`	预报月份
`date`	`20240615`	预报日期（YYYYMMDD）
`run`	`00z`	运行小时
`member`	`gep01`	集合成员名称（gep01–gep30）
`filename`	`2024061500z-gep01.parquet`	源 Parquet 文件名
`hf_path`	`run_par_gefs/2024/06/20240615/00z/...`	原始 GCS 布局路径
`size_bytes`	`287232`	源 Parquet 大小

可用变量

地面变量	气压层变量
tp（总降水量）	标准层的 u/v 风
t2m（2 米温度）	标准层的温度
sp（地面气压）	标准层的位势高度
dswrf（向下短波辐射）	比湿

技术原理

采用 Grib-Index-Kerchunk (GIK) 方法，类似于视频流媒体技术将 GRIB 数据分割为变量/成员/时间步块，Parquet 文件列出 GRIB 的 URL 和字节范围，分析代码仅获取所需变量。

验证结果

与 Herbie 在东非区域（纬度 -12..15，经度 25..52）验证：

Pearson r = 1.0，RMSE = 0.0，MAE = 0.0（11,881 个格点）
由于使用相同的源 GRIB 字节，结果完全一致

项目信息

开发机构：ICPAC（IGAD 气候预测与应用中心）
用途：东非地区连续气候风险监测
许可证：Apache-2.0
关联数据集：E4DRR/gik-ecmwf-par（ECMWF IFS 集合，相同架构）

搜集汇总

数据集介绍

构建方式

GIK-GEFS-PAR数据集基于Grib-Index-Kerchunk（GIK）方法构建，将NOAA GEFS集合预报系统每日生成的约24 GB GRIB二进制文件，转化为轻量级的月度Parquet虚拟引用文件。通过提取每个GRIB文件中变量、成员和时间步的字节偏移与长度信息，存储为[zarr_key, [s3_url, byte_offset, byte_length]]形式的元组，每个月度聚合文件仅约250 MB，实现了约3000倍的数据压缩比。数据集覆盖2020年9月至2025年的每日00z预报，包含30个集合成员和81个时间步，整体引用约47 TB的原始GRIB数据。

使用方法

用户可通过pandas的read_parquet函数，结合filters参数按日期和成员筛选月度聚合文件，例如过滤单日期单成员的数据。随后，利用筛选出的引用字典，通过xarray的open_dataset接口，配合fsspec的reference文件系统和远程S3存储（使用匿名访问），即可在本地构建虚拟zarr数据集，实现71个变量的延迟加载。支持将30个成员分别打开后沿member维度拼接，形成完整的集合预报数据集，仅在实际调用.load()时触发网络读取，极大提升了大规模气候分析的计算效率。

背景与挑战

背景概述

GIK-GEFS-PAR数据集由IGAD气候预测与应用中心（ICPAC）于2020年至2025年间构建，旨在解决高分辨率集合天气预报数据的高效访问与分析难题。该数据集基于NOAA全球集合预报系统（GEFS）0.25°网格的GRIB文件，通过创新的Grib-Index-Kerchunk（GIK）方法，将每日约24 GB的原始GRIB数据压缩为约250 MB的月度虚拟引用Parquet文件，实现了对长达1924天、总量约47 TB的预报数据的轻量化索引。作为E4DRR和SEWAA项目的重要产出，该数据集在连续气候风险监测中发挥关键作用，其引用文件通过字节范围读取技术，仅需获取原始数据2–5%的字节即可完成分析，显著降低了存储和传输成本。这一方法借鉴了视频流媒体中的分片与清单机制，将天气数据的分变量、分成员、分时次访问转化为类似流媒体的高效模式，为大规模集合预报的并行分析提供了全新范式。

当前挑战

该数据集主要解决了高分辨率集合天气预报领域的三大核心挑战：其一，原始GRIB数据体积庞大，每日24 GB、单次预报81个时次30个成员的规模，使得传统全量下载方式难以适用于资源受限的环境，尤其是在非洲之角等观测与计算基础设施薄弱地区；其二，对流式分析的支持不足，用户通常仅需特定变量、成员或时次，却被迫处理完整文件，导致严重的带宽和计算资源浪费；其三，跨日、跨成员的集成分析缺乏高效索引机制，难以实现大范围的集合预报后处理与验证。在数据构建过程中，面临GRIB文件在S3上的非连续存储、不同版本GEFS输出的格式差异，以及如何确保字节范围读取的位精确匹配等工程挑战。最终通过Kerchunk与Parquet的联合设计方案，实现了与Herbie等独立访问库的位级一致性验证（皮尔逊相关系数为1.0），确保了数据层面的可靠性。

常用场景

经典使用场景

GIK-GEFS-PAR数据集的核心价值在于将海量的NOAA GEFS集合预报GRIB数据转化为轻量级的Parquet参考文件，使得研究人员能够在不下载完整原始数据的情况下，通过字节范围读取技术高效访问所需的变量、集合成员和时间步长。其典型使用场景包括：从月度聚合Parquet文件中按日期和集合成员进行过滤查询，仅读取数兆字节的数据即可获取完整的气象字段；通过重构Zarr存储并借助xarray进行虚拟访问，实现高分辨率全球预报场的惰性加载与并行分析；进一步地，可对单个日期的全部30个集合成员进行拼接，构建具备成员维度的集合预报数据集，为后续的概率预报分析提供便利。

解决学术问题

该数据集的问世有效解决了大气科学领域中长期存在的海量集合预报数据存储与访问瓶颈问题。传统上，处理NOAA GEFS每日约24GB的GRIB数据需要完整的本地下载与解码，不仅消耗巨大的存储资源，也严重制约了大规模历史再预报分析和实时监测研究。GIK-GEFS-PAR通过虚拟引用机制将每日数据量压缩至原本的2%至5%，使得研究机构或个人研究者能够以极低的网络与存储开销开展高时间密度、多成员的全套集合预报分析。这一方法为气候变化检测、极端事件归因、集合预报后处理以及基于大样本的统计建模提供了前所未有的数据可及性，促进了集合预报在学术研究中从偶发使用向常规化、系统化应用的跃迁。

实际应用

在实际应用层面，GIK-GEFS-PAR数据集已成为东非地区持续气候风险监测的核心基础设施，由IGAD气候预测与应用中心（ICPAC）主导开发。其轻量高效的架构使得气象部门能够实时接入NOAA全球集合预报产品，应用于短期干旱预警、极端降水风险评估以及农业气候决策支持等业务场景。例如，通过快速读取选定区域的降水与温度集合预报，预警机构可以在数分钟内生成概率型灾害风险图，显著提升对洪涝、干旱等极端事件的响应速度。此外，该数据集也被整合到能源、水资源和防灾减灾等领域的决策支持平台中，为跨季节预测和动态风险管理提供可靠的数据引擎。

数据集最近研究