AguaTrack-ARCO-SA
收藏Hugging Face2026-04-30 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/AguaTrack/AguaTrack-ARCO-SA
下载链接
链接失效反馈官方服务:
资源简介:
WAM2Layers Zarr Store 是一个以 Zarr v3 二进制格式存储的数据集。该数据集可以通过 xarray 和 HfFileSystem 进行高效访问。用户需要使用 HuggingFace Hub 提供的文件系统接口来获取数据映射器,并通过 xarray 打开 Zarr 格式的数据存储。数据集适用于需要处理大规模多维数组数据的科学计算和数据分析任务。
WAM2Layers Zarr Store is a dataset stored in Zarr v3 binary format. The dataset can be efficiently accessed via xarray and HfFileSystem. Users need to use the file system interface provided by HuggingFace Hub to obtain the data mapper and open the Zarr format data store via xarray. The dataset is suitable for scientific computing and data analysis tasks that require processing large-scale multi-dimensional array data.
创建时间:
2026-04-28
原始信息汇总
根据您提供的数据集详情页面信息,以下是该数据集的概述:
数据集概述
基本信息
- 数据集名称:WAM2Layers Zarr Store
- 存储格式:Binary Zarr v3
- 托管平台:Hugging Face Datasets
访问方式
该数据集支持通过 xarray 和 HfFileSystem 进行访问。示例代码如下:
python
from huggingface_hub import HfFileSystem
import xarray as xr
fs = HfFileSystem() store = fs.get_mapper("datasets/AguaTrack/AguaTrack-ARCO-SA/AguaTrack_ARCO_SA_daily/2019.zarr") ds = xr.open_zarr(store, consolidated=False)
数据路径示例
数据集的完整访问路径示例为:datasets/AguaTrack/AguaTrack-ARCO-SA/AguaTrack_ARCO_SA_daily/2019.zarr,表示该数据集包含按年份组织的数据(此处示例为2019年数据)。
标签信息
数据集标签为:zarr(标签列表为空,但主标签为zarr格式)。
搜集汇总
数据集介绍

构建方式
AguaTrack-ARCO-SA数据集以Zarr v3二进制格式存储,采用分块压缩的云原生架构,将每日水文数据按年份组织为独立的Zarr存储单元。通过Hugging Face的HfFileSystem接口实现远程映射,无需本地下载即可直接访问云端数据。这一构建方式充分利用对象存储的弹性扩展能力,实现了高效的大规模时空数据管理。
特点
该数据集以高时间分辨率(逐日)覆盖南美洲地区的水文循环核心变量,采用Zarr格式的特性支持并行读取与分块索引。基于ARCO(Analysis-Ready Cloud-Optimized)理念设计,数据维度与坐标系统严格对齐,可直接驱动WAM2Layers模型的大气水汽追踪模拟,显著降低传统NetCDF格式的IO瓶颈。
使用方法
用户通过Python环境整合huggingface_hub与xarray库即可调用。典型流程包括:初始化HfFileSystem挂载远程存储,构建mapper对象定位具体年份的Zarr存储路径,最后以xr.open_zarr开启延迟加载。建议设置chunks参数优化分块策略,并利用xarray的Dask集成实现分布式计算,从而高效处理十年尺度的连续时间序列分析。
背景与挑战
背景概述
AguaTrack-ARCO-SA数据集由AguaTrack研究团队创建,专注于南美洲地区的陆地-大气水循环分析。该数据集以Zarr v3格式存储,旨在提供高时空分辨率的逐日水文气象数据,支持水汽追踪、降水再循环等关键研究。其核心研究问题在于量化亚马逊流域及其他南美生态系统的水分来源与传输路径,从而深化对区域水资源管理与气候变化响应的理解。作为ARCO(Analysis-Ready, Cloud-Optimized)系列的一员,该数据集推动了地球科学领域向云原生数据范式转型,促进了跨学科协作与大规模模型验证。
当前挑战
该数据集面临的核心挑战在于解决南美洲复杂地形与气候系统下的水汽溯源问题,传统再分析资料难以精准刻画安第斯山脉与亚马逊雨林之间的水汽交互过程。构建过程中,需克服多种观测数据的时空不一致性,包括卫星降水产品、再分析场与地面站网的融合难题。同时,采用Zarr v3格式虽提升了流式访问效率,但存储与计算架构的优化仍需应对大规模数据I/O瓶颈及元数据管理复杂性,确保数据在HuggingFace等云平台上的无缝兼容与可重复性。
常用场景
经典使用场景
AguaTrack-ARCO-SA数据集以Zarr格式存储高时空分辨率的水文气象数据,尤其聚焦于南美洲区域的水循环过程。研究者可通过xarray与HfFileSystem接口便捷地访问逐日气象变量,常用于驱动水文模型、开展大气-陆地水分追踪分析,以及评估区域水汽通量与降水再循环效率。这一数据集的经典使用场景包括量化亚马逊雨林蒸散发对本地及下游降水的影响,或分析安第斯山脉冰雪融水对干旱区径流的贡献,为陆-气相互作用研究提供了高效的数据基石。
解决学术问题
该数据集的核心学术贡献在于解决了南美洲地区高分辨率、长序列水循环数据难以获取的瓶颈问题。通过统一分析水汽溯源与沉降路径,它使研究者能够量化不同下垫面(如雨林、农田、城市)对区域降水调控的贡献,从而揭示土地利用变化与气候系统之间的反馈机制。此外,它支持跨季节水循环变异性的诊断分析,为理解极端洪水与干旱事件的成因提供了关键证据,推动了陆面过程与大气动力学交叉领域的发展。
衍生相关工作
基于该数据集,学术界衍生出多项经典工作,包括开发改进的水汽追踪算法(如WAM2Layers模型的区域化版本),以及构建南美洲水循环归因框架以剖析人类活动与自然变率对降水模式的影响。部分研究还将其与未来气候情景预估数据耦合,评估气候变化下亚马逊雨林的“水分泵”功能是否会衰退。此外,该数据推动了跨学科合作,催生了探讨水-能-食物纽带关系的高维分析模型,凸显其在系统性气候应对中的科学价值。
以上内容由遇见数据集搜集并总结生成



