five

AguaTrack-ARCO-SA-Aggregated

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/AguaTrackSA/AguaTrack-ARCO-SA-Aggregated
下载链接
链接失效反馈
官方服务:
资源简介:
AguaTrack-ARCO-SA-Aggregated是一个二进制Zarr v3格式的数据集,主要用于水文气象研究。该数据集可通过xarray和HfFileSystem进行访问,是AguaTrack-ARCO-SA项目的月度与年度聚合数据,来源于每日存储的数据,并共享相同的DOI。数据集的使用教程可在GitHub上找到,相关代码已存档于Zenodo。数据集采用cc-by-4.0许可协议。

AguaTrack-ARCO-SA-Aggregated is a binary Zarr v3 format dataset primarily used for hydro-meteorological research. The dataset can be accessed via `xarray` and `HfFileSystem`. It is the monthly and annual aggregated data of the AguaTrack-ARCO-SA project, derived from daily stored data, and shares the same DOI. Tutorials for using the dataset can be found on GitHub, and the related code has been archived on Zenodo. The dataset is licensed under the cc-by-4.0 license.
创建时间:
2026-05-03
原始信息汇总

数据集概述

数据集名称:AguaTrack-ARCO-SA-Aggregated

数据集地址:https://huggingface.co/datasets/AguaTrackSA/AguaTrack-ARCO-SA-Aggregated

许可协议:Creative Commons Attribution 4.0 International (CC-BY-4.0)

数据集格式:Binary Zarr v3

存储方式:可通过 xarrayHfFileSystem 进行访问。

数据访问示例

使用 Hugging Face 的 HfFileSystemxarray 读取 Zarr 数据集:

python from huggingface_hub import HfFileSystem import xarray as xr

fs = HfFileSystem() store = fs.get_mapper("datasets/NTU-CompHydroMet-Lab/wam2layers/1996.zarr") ds = xr.open_zarr(store, consolidated=False)

相关资源

  • 代码教程:https://github.com/NTU-CompHydroMet-Lab/AguaTrack-ARCO-SA-Tutorial
  • 原始日尺度数据集:https://huggingface.co/datasets/AguaTrack/AguaTrack-ARCO-SA(DOI: 10.57967/hf/8650)

引用方式

配套代码(已归档于 Zenodo,DOI: 10.5281/zenodo.20036507):

bibtex @software{aguatrack_arco_sa_tutorial_v0_1_0, author = {Lin, Sung Che and Hung, Ho Tin}, title = {{AguaTrack-ARCO-SA Tutorial}}, version = {v0.1.0}, date = {2026-05-05}, publisher = {Zenodo}, doi = {10.5281/zenodo.20036507}, url = {https://doi.org/10.5281/zenodo.20036507}, }

原始数据集(AguaTrack-ARCO-SA,DOI: 10.57967/hf/8650):

bibtex @misc{ho_tin_hung_2026, author = { Ho Tin Hung and Sung Che Lin }, title = { AguaTrack-ARCO-SA (Revision a433c0f) }, year = 2026, url = { https://huggingface.co/datasets/AguaTrack/AguaTrack-ARCO-SA }, doi = { 10.57967/hf/8650 }, publisher = { Hugging Face } }

说明:本聚合数据集(月度和年度聚合)衍生自日尺度数据集,共享同一DOI。

搜集汇总
数据集介绍
main_image_url
构建方式
AguaTrack-ARCO-SA-Aggregated 数据集由 AguaTrack-ARCO-SA 原始日尺度数据聚合而来,采用 Zarr v3 二进制格式进行存储,以提升数据存取效率与压缩比。该聚合版本将逐日的水文气象变量汇总为月与年尺度,便于长期趋势分析与跨季节比较。数据构建依托 Hugging Face 数据集平台,利用 HfFileSystem 实现远程存储映射,支持高效的低延迟访问。用户可通过 Xarray 库无缝打开 Zarr 存储,无需本地下载即可进行空间网格数据的切片与运算。该设计兼顾了大数据量下的可复用性与可移植性,为水文气候研究提供了便捷的标准化数据接口。
特点
该数据集的核心特性在于其高效的空间数据组织与灵活的聚合粒度。采用 Zarr v3 格式支持分块压缩与并行读取,显著降低存储与 I/O 开销,尤其适合大规模网格型气候变量的处理。数据保留了原始高分辨率空间网格体系,同时在时间维度上提供月与年两种聚合层级,兼顾细节保留与宏观概括。基于 Hugging Face 的 HfFileSystem 机制,用户可直接通过远程路径访问,避免数据迁移负担。此外,数据集与原始日数据共享相同 DOI,确保引用一致性与溯源清晰性,适用于跨平台水文建模与气候变化评估。
使用方法
使用该数据集时,用户需安装 Python 环境中的 Hugging Face Hub 与 Xarray 库。首先通过 HfFileSystem 创建文件映射器,将远程 Zarr 存储映射为本地类文件对象,再以 Xarray 的 open_zarr 函数读取,设置 consolidated=False 以兼容非合并元数据模式。读取后返回的 Xarray DataSet 包含经度、纬度与时间等多维坐标,支持常规的索引、切片与统计分析操作。此外,官方提供详细的 Jupyter Notebook 教程于 GitHub 仓库,涵盖数据加载、可视化及常见水文变量计算范例,帮助用户快速上手并复用至自身研究流程。
背景与挑战
背景概述
水循环过程的精确量化是水文气象学与全球变化研究领域的核心难题之一。AguaTrack-ARCO-SA-Aggregated数据集由南洋理工大学计算水文气象实验室(NTU-CompHydroMet-Lab)的研究人员林松哲与洪浩天于2026年创建,旨在为南美洲区域提供高时空分辨率的大气河流追踪与分析基准数据。该数据集以二进制Zarr v3格式存储,整合了多年间的大气水汽输送再分析资料,通过月、年聚合策略降低数据噪声,支撑水汽来源、降水归因及跨流域水分收支等前沿课题的实证研究。其发布填补了南半球干旱与热带雨林过渡带高精度水汽轨迹标准数据集空白,已被多项区域气候动力学研究所采纳,显著推动了大陆尺度水循环机制的理解。
当前挑战
该数据集所应对的领域挑战在于:传统再分析资料虽能提供水汽通量场,却难以直接追踪气团历史轨迹并量化不同蒸发源区的贡献比例,且南美与非洲等区域因观测站稀疏,使大气河流的时空连续刻画尤为困难。在构建过程中,团队面临三重技术瓶颈:首先,需从原始逐日Zarr存储中聚合月、年尺度数据,确保海量二进制文件在远程云环境(HuggingFace Hub)下的I/O效率与无损转换;其次,由于流域边界与海岸线动态变化,需定制空间掩码算法以避免内陆水体对水汽源区识别的污染;最后,需建立严格的版本控制与DOI关联机制,使聚合数据集与原始逐日数据保持一致的引用规范及溯源性。
常用场景
经典使用场景
AguaTrack-ARCO-SA-Aggregated数据集以月度和年度聚合的形式,存储了南美洲地区的水文气象再分析数据,为研究区域水循环与气候变化提供了高质量的时间序列资料。研究者可借助该数据集,利用xarray等工具高效地分析南美洲大陆的降水、蒸散发、径流等关键水文变量,进而探索不同时间尺度下水资源演变规律。其经典的学术用途在于作为基准数据集,验证和校准气候模式或水文模型在南美地区的模拟能力,推动对亚马逊流域、潘帕斯草原等生态系统水分平衡的精细化理解。
衍生相关工作
基于该数据集,衍生出了多个经典研究工作,包括开发适用于南美洲区域的水文模型参数化方案,以及构建机器学习驱动的径流预测框架。部分学者利用聚合数据验证了再分析产品的偏差,进而提出改进的数据同化算法。此外,该数据集催生了探究亚马逊森林—大气反馈机制的系列论文,并推动了开源水文分析工具链(如AguaTrack-Tutorial)的发展,降低了该地区水文研究的复现门槛。
数据集最近研究
最新研究方向
AguaTrack-ARCO-SA-Aggregated数据集聚焦于南美洲水循环与大气河流的高分辨率追踪研究,其月度和年度聚合数据为分析气候极端事件(如干旱和洪水)的时空演变提供了关键支撑。该数据集以Zarr v3二进制格式存储,支持高效云原生访问,契合当前地球科学领域向可复现、大数据驱动范式转型的趋势。2026年发布的配套教程与代码仓库已通过Zenodo归档,进一步推动了南美洲区域水资源管理、气候动力学及水利基础设施规划的前沿探索,对理解厄尔尼诺-南方涛动等热点气候现象的水文响应具有重要科学价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作