virtualizarr-stores
收藏Hugging Face2026-02-24 更新2026-02-25 收录
下载链接:
https://huggingface.co/datasets/E4DRR/virtualizarr-stores
下载链接
链接失效反馈官方服务:
资源简介:
CMORPH VirtualiZarr Parquet Catalog (1998-2024) 是一个基于Parquet的虚拟数据集目录,用于NOAA CMORPH(CPC MORPHing技术)全球降水数据集。该数据集通过VirtualiZarr和Kerchunk技术创建,包含236,688个NetCDF文件的单文件索引,覆盖1998年1月至2024年10月的数据,支持云原生访问而无需下载或转换原始文件。数据集的时间分辨率为30分钟,空间分辨率为8公里,覆盖全球范围,主要变量为降水速率(mm/hr)。数据集以Parquet格式存储,大小为223 MB(zstd压缩),包含详细的文件元数据和Kerchunk引用,支持高效的时间序列分析和空间子集提取。适用于气候研究、降水预测和地理空间分析等任务。
创建时间:
2026-02-21
搜集汇总
数据集介绍
构建方式
在气候科学领域,高效访问大规模遥感数据是推动研究进展的关键。本数据集采用VirtualiZarr与Kerchunk技术,对存储于AWS S3上的236,688个NetCDF文件进行虚拟化索引构建。通过分布式计算框架Coiled协调多工作节点,以批处理方式提取每个文件的元数据与字节偏移信息,无需下载原始数据。最终将生成的Kerchunk引用流式写入单个Parquet文件,形成一套轻量级、云原生的虚拟数据集目录,完整覆盖1998年至2024年的全球降水观测序列。
使用方法
使用本数据集时,研究人员可首先通过Pandas读取Parquet目录,快速筛选特定时间范围的文件元数据。借助fsspec与zarr库,可直接加载Kerchunk引用,以零下载方式在内存中构建虚拟数据集,并通过xarray进行灵活的数据操作。针对区域研究,如东非地区,配套的Icechunk管道支持将虚拟索引具体化为优化分块的Zarr存储,进一步提升时间序列查询效率。这种分层使用方法兼顾了探索性分析的轻便性与生产级计算的高性能需求。
背景与挑战
背景概述
CMORPH(CPC MORPHing technique)全球降水数据集由美国国家海洋和大气管理局(NOAA)气候预测中心于21世纪初创建,旨在通过卫星遥感与地面观测融合技术,提供高时空分辨率的全球降水估计。该数据集自1998年持续更新,已成为气候学、水文学及灾害预警研究的关键数据源,尤其在极端降水监测与气候模式验证领域具有深远影响力。2024年,ICFAC IGAD等机构利用VirtualiZarr与Kerchunk技术构建了Parquet格式的虚拟数据集目录,实现了对27年间23万余个NetCDF文件的云端高效索引,推动了地球科学数据向云原生范式的转型。
当前挑战
在降水科学领域,高分辨率长时间序列数据的处理长期面临存储冗余与计算效率的挑战,传统文件下载模式难以支撑全球尺度分析。本数据集构建过程中,需对分布存储于AWS S3的236,688个NetCDF文件进行无损虚拟化整合,涉及跨数十年时间维度的元数据提取与字节级索引生成,技术层面需克服海量小文件访问延迟、异构数据格式统一及分布式处理中的内存优化难题。最终通过Coiled平台并行化处理与流式Parquet写入,实现了零数据迁移的云端直接访问,为地球系统科学大数据管理提供了创新解决方案。
常用场景
经典使用场景
在气候科学领域,高分辨率降水数据的获取与分析是理解全球水循环动态的关键。该数据集通过虚拟化技术整合了1998年至2024年全球范围每30分钟、空间分辨率达8公里的CMORPH降水数据,为研究人员提供了无需下载原始海量文件即可直接进行云端计算的经典范例。其典型应用场景包括气候模型验证、极端降水事件统计分析以及长期降水趋势的时空演变研究,极大提升了数据访问与处理的效率。
解决学术问题
传统上,处理大规模网格化气候数据常受限于本地存储与计算资源,阻碍了长时间序列分析的深度开展。本数据集借助VirtualiZarr与Kerchunk技术构建了轻量级索引,有效解决了海量NetCDF文件的云端无缝访问难题,使学者能够聚焦于科学问题而非数据管理。它支持对全球降水格局变异、季风系统演变及气候异常事件的机理探究,为水文气候学研究提供了可靠的数据基础。
实际应用
在实际业务层面,该数据集支撑着灾害预警与水资源管理系统的运行。例如,针对东非地区的子集材料化与重分块处理,优化了区域洪涝与干旱监测的时序查询性能。气象机构与防灾部门可基于此快速获取历史降水情景,评估灾害风险并制定应对策略。同时,其在农业气候指导、城市防洪规划以及气候变化适应政策制定中亦发挥着重要的数据支撑作用。
数据集最近研究
最新研究方向
在气候科学领域,高分辨率降水数据的云端高效访问正成为研究热点。CMORPH VirtualiZarr Parquet Catalog数据集通过集成VirtualiZarr与Kerchunk技术,构建了覆盖1998至2024年全球236,688个NetCDF文件的虚拟化索引,实现了无需下载原始数据的云端直接读取。这一创新推动了气候数据基础设施的范式转变,使得研究人员能够利用分布式计算框架(如Coiled)对海量数据进行实时分析与区域子集提取,特别是在东非等关键气候敏感区的极端降水事件研究中展现出巨大潜力。结合Icechunk版本化存储与Zarr格式优化,该数据集为长时间序列气候模拟、灾害预警系统开发提供了高性能数据支撑,标志着地球科学数据管理向云原生、可交互操作方向迈进的重要里程碑。
以上内容由遇见数据集搜集并总结生成



