five

Caravan-Qual

收藏
github2025-12-18 更新2025-12-20 收录
下载链接:
https://github.com/SustainableWaterSystems/Caravan-Qual
下载链接
链接失效反馈
官方服务:
资源简介:
*Caravan-Qual* 是一个开放访问的数据集,它将水质数据引入到大样本水文学(LSH)的研究范式中,整合了来自100种成分的水质数据与集水区属性、气象强迫和径流观测数据。该数据集覆盖了1980年至2025年的时间段,目前包含来自137,373个监测站的约7000万条河流水质观测数据,以及来自25,839个测站的径流数据。

*Caravan-Qual* is an open-access dataset that introduces water quality data into the research paradigm of Large Sample Hydrology (LSH). It integrates water quality data from 100 constituents with catchment attributes, meteorological forcings, and runoff observation datasets. Spanning the period from 1980 to 2025, the dataset currently contains approximately 70 million river water quality observations from 137,373 monitoring stations, alongside runoff data from 25,839 gauging stations.
创建时间:
2025-12-11
原始信息汇总

Caravan-Qual 数据集概述

数据集简介

Caravan-Qual 是一个开放获取的数据集,旨在将水质数据整合到大样本水文学的研究范式中。该数据集集成了来自100种成分的水质数据、流域属性、气象强迫数据和径流观测数据。

时间与空间覆盖

  • 时间覆盖范围:1980年至2025年。
  • 监测站点数量:包含来自137,373个监测站的约7000万条河流水质观测数据。
  • 径流测站数量:包含来自25,839个测站的径流数据。

数据内容与变量

数据集整合了以下类型的观测与属性数据:

  • 水质数据(涵盖100种成分)。
  • 流域属性。
  • 气象强迫数据。
  • 径流观测数据。

数据获取与版本

  • 完整数据集:包含重新创建或扩展Caravan-Qual所需的所有数据,访问地址为 https://doi.org/10.24416/UU01-S8QW8O。
  • 轻量版数据集:为符合Zenodo的数据存储政策,该版本包含月度(而非日度)气象数据,访问地址为 https://doi.org/10.5281/zenodo.17787066。

相关文档与代码

  • 关联论文:一篇相关手稿已提交至Scientific Data,预印本可访问 https://doi.org/10.31223/X54J39。
  • 代码仓库:本GitHub仓库包含用于重新创建或扩展Caravan-Qual数据集的代码。
  • 变量列表:仓库中提供了Caravan-Qual包含的完整变量列表(Caravan-Qual_zarr_variables.csv)。

数据基础与关联

Caravan-Qual 在现有Caravan数据集的基础上增加了水质观测数据。

  • 原始Caravan数据集访问地址:https://zenodo.org/records/15529786。
  • 原始Caravan论文访问地址:https://www.nature.com/articles/s41597-023-01975-w。
  • Caravan开发与社区扩展文档地址:https://github.com/kratzert/Caravan/tree/main。
  • 水质监测站的气象数据和流域属性是使用为Caravan开发的方法推导的,相关代码地址:https://github.com/kratzert/Caravan/tree/main/code。

联系方式

  • Caravan-Qual:Edward R. Jones (e.r.jones@uu.nl)
  • Caravan:Frederik Kratzert (kratzert@google.com)
搜集汇总
数据集介绍
main_image_url
构建方式
Caravan-Qual数据集的构建植根于大样本水文学研究范式,通过整合全球范围内137,373个监测站约7,000万条河流水质观测记录,覆盖1980年至2025年的时间跨度。该数据集以既有Caravan数据集为基础,扩展了100种水质参数,并关联了25,839个水文站的径流数据。构建过程中采用上游流域多边形划分技术,将水质监测点与气象强迫数据、流域属性及径流观测进行空间匹配,最终形成统一的CSV与Zarr格式数据产品。
特点
Caravan-Qual的显著特征在于其全球尺度的综合性与开放性,首次将水质参数系统性地纳入大样本水文学框架。数据集涵盖物理、化学及生物等多类水质指标,时间分辨率高且空间覆盖广泛,同时提供轻量级月度气象数据版本以适应不同存储需求。其结构化设计支持水质与水文过程的耦合分析,为流域尺度水环境模拟与长期趋势研究提供了前所未有的数据基础。
使用方法
研究人员可通过指定数据存储库获取完整数据集或轻量版本,利用附带的脚本工具重现或扩展数据整合流程。数据集以CSV和Zarr格式提供,支持时间序列分析、机器学习建模及跨流域比较研究。用户可结合水质参数、气象强迫与径流数据,探究人类活动与气候变迁对水环境的影响,亦可通过上游流域属性推导实现水质过程的机制解析与预测建模。
背景与挑战
背景概述
在水文科学研究领域,大样本水文(LSH)范式已成为推动模型发展与机理认知的重要框架,而传统数据集多聚焦于径流与气象要素,对水质参数的整合相对有限。Caravan-Qual数据集由乌得勒支大学等机构的研究团队于2024年前后创建,旨在将全球范围的水质观测数据系统性地融入LSH研究体系。该数据集整合了1980年至2025年间约7000万条河流水质观测记录,涵盖137,373个监测站点及25,839个流量测站,涉及100种水质组分,并与流域属性、气象驱动数据及径流观测相结合。其核心研究问题在于破解水质数据碎片化难题,为全球尺度水质模拟、水文-水质耦合分析及环境变化影响评估提供统一基准,显著拓展了LSH范式的研究维度,对水环境管理与生态水文研究具有里程碑意义。
当前挑战
在水质科学领域,构建全球尺度、多组分整合的数据集面临多重挑战。在领域问题层面,水质参数具有高度时空异质性,不同组分的监测频率与精度差异显著,且受自然过程与人类活动复合影响,导致水质模拟中的非线性响应机制难以捕捉;同时,水质数据与水文气象数据的时空匹配存在尺度不匹配问题,增加了耦合分析的复杂性。在构建过程中,挑战主要源于数据源的分散性与异构性,需协调来自不同国家、机构的监测标准与格式,并进行严格的质量控制与缺失值处理;此外,流域边界提取、站点空间关联及大数据存储(如应对每日气象数据的存储限制)等技术环节亦对数据集的完整性与可用性提出了较高要求。
常用场景
经典使用场景
在水文学与水质科学领域,Caravan-Qual数据集通过整合全球范围内约70百万条河流水质观测数据,为大规模样本水文学研究提供了关键支撑。其经典使用场景体现在支持水质时空动态分析,例如研究者可基于该数据集探究不同流域中营养盐、重金属等100种水质参数的长期变化趋势,并结合气象强迫与径流数据,揭示气候变化与人类活动对水质的影响机制。
衍生相关工作
Caravan-Qual衍生的经典工作包括基于其数据构建的水质预测模型与水文机器学习框架。例如,研究者利用该数据集开发了融合深度学习的流域水质模拟工具,提升了硝酸盐浓度预测的准确性;同时,该数据集也促进了Caravan原有水文数据集的扩展,催生了多篇聚焦水质-水文交互作用的高影响力学术论文,推动了水文学与数据科学的交叉创新。
数据集最近研究
最新研究方向
在水文科学领域,随着全球水资源管理与水质安全日益受到关注,Caravan-Qual数据集通过整合全球范围内137,373个监测站的约7,000万条水质观测数据,将水质参数引入大样本水文研究范式,为跨学科研究提供了前所未有的数据基础。该数据集覆盖1980年至2025年的时间跨度,并与气象强迫、流域属性及径流观测相结合,推动了水质变化驱动机制、污染物迁移模拟以及气候变化对水生态系统影响的前沿探索。当前研究热点聚焦于利用机器学习方法解析水质时空异质性,评估人类活动与自然过程的交互效应,并为联合国可持续发展目标中清洁水与卫生目标的实现提供科学支撑。这一数据集的开放共享,不仅促进了全球水环境模型的比较与验证,还增强了水文预测的可靠性,对水资源政策制定与生态保护具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作