FlowDB
收藏arXiv2020-12-21 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2012.11154v1
下载链接
链接失效反馈官方服务:
资源简介:
FlowDB是由CoronaWhy研究机构创建的一个大规模河流流量、闪洪和降水数据集。该数据集整合了来自美国地质调查局(USGS)的每小时河流流量数据和来自多个来源的每小时降水数据,覆盖全美50个州超过8000个监测点。此外,FlowDB还包含一个子集,专门记录闪洪事件及其造成的损害和伤害数据。数据集的创建过程涉及数据抓取、时间戳标准化和数据合并等步骤。FlowDB的应用领域主要集中在洪水预测和损害评估,旨在通过精确的数据支持,提高对极端天气事件的应对能力。
FlowDB is a large-scale dataset on river flow, flash floods and precipitation developed by the CoronaWhy research institute. This dataset compiles hourly river flow data from the United States Geological Survey (USGS) and hourly precipitation data from multiple sources, covering over 8,000 monitoring stations across all 50 U.S. states. Additionally, FlowDB includes a dedicated subset that records flash flood events along with the damage and injury data caused by these events. The curation of FlowDB involves procedures such as data scraping, timestamp standardization and data merging. The primary application domains of FlowDB focus on flood forecasting and damage assessment, aiming to enhance the response capabilities to extreme weather events through precise data support.
提供机构:
CoronaWhy
创建时间:
2020-12-21
搜集汇总
数据集介绍

构建方式
在洪水预测研究领域,数据集的构建需兼顾时间粒度与空间覆盖范围。FlowDB数据集通过整合美国地质调查局(USGS)提供的河流流量数据与多源气象数据,构建了覆盖全美50个州、超过8000个监测点的每小时河流流量与降水数据集。具体构建过程中,研究团队开发了自动化数据采集工具,获取了2014年至2019年间的时序数据,并通过时间戳对齐与空间插值方法,将河流监测点与邻近气象站的数据进行关联。对于缺失值,采用基于邻近观测值的均值插补策略,并标注插补来源以确保数据透明度。此外,针对山洪事件,团队利用自然语言处理技术从NOAA的山洪报告中提取事件信息,并与相应的水文气象数据关联,形成了包含财产损失与人员伤亡评估的专项子集。
特点
FlowDB数据集在洪水预测领域展现出显著的多维特征。其核心优势在于首次提供了小时级别的河流流量与降水同步数据,覆盖超过70百万小时观测记录,空间范围遍及全美各类水系,包括自然河流与受水坝调控的水体。数据集不仅包含基础的水文气象变量,还通过专项子集整合了山洪事件的社会经济影响信息,如财产损失分级与伤亡统计,为灾害风险评估提供了多尺度数据支持。值得注意的是,数据集在设计上保留了原始数据的复杂性,例如水坝调控河流的周期性流量模式,旨在挑战模型对异质水文过程的建模能力。同时,数据集的版本追踪机制与开源预处理框架,进一步增强了其可复现性与可扩展性。
使用方法
FlowDB数据集支持两类核心研究任务:河流流量预测与山洪灾害损失评估。针对流量预测任务,研究者可利用数据集中的时序变量(如降水、温度与历史流量)训练时间序列模型,以预测未来336小时内的河流流量变化;评估时采用基于各河流R²分数的聚合指标,以平衡不同规模河流的预测误差贡献。对于山洪损失评估任务,数据集提供了分类标签(财产损失分级与伤亡二分类),支持基于静态特征(如区域人口与地理数据)与动态气象数据的联合建模,并以F1分数作为模型性能度量。为降低使用门槛,团队提供了开源软件包,集成数据预处理、基准模型(如DA-RNN)与评估脚本,支持研究者快速进行模型比较与扩展实验。此外,数据集的模块化设计便于未来融入积雪深度与土壤湿度等新增变量,以持续优化预测精度。
背景与挑战
背景概述
FlowDB数据集于2020年由CoronaWhy团队发布,旨在应对气候变化背景下洪水灾害频发的严峻挑战。该数据集整合了美国地质调查局(USGS)等机构提供的全国范围内超过8000个水文监测站的每小时河流流量数据,并结合了降水与温度信息,填补了现有数据集中缺乏小时级降水与河流流量同步记录的空白。其核心研究问题聚焦于提升河流流量预测的精度与时效性,以及评估山洪事件造成的财产损失与人员伤亡,为机器学习在气候灾害防控领域的应用提供了关键数据支撑。
当前挑战
FlowDB数据集致力于解决洪水预测与灾害评估中的双重挑战:在领域问题层面,需克服河流流量动态变化的高度非线性、降水事件时空异质性以及山洪灾害的突发性建模难题;在构建过程中,面临多源数据(如USGS、NOAA等)的时间戳对齐、缺失值插补、以及受水坝调控河流的噪声识别等复杂数据处理问题。此外,数据集中存在的类别不平衡现象,如多数山洪事件未造成损失,亦对模型训练的稳健性提出了更高要求。
常用场景
经典使用场景
在水文学与气候科学领域,FlowDB数据集以其小时级分辨率的河流流量与降水数据,为精细化水文建模提供了关键支撑。该数据集最经典的应用场景在于支持河流流量预测研究,通过整合全美超过8000个监测站点的连续观测数据,研究者能够构建高精度时序模型,模拟不同流域在极端降水事件下的水文响应过程,为洪水预警系统提供科学依据。
实际应用
在实际防灾减灾领域,FlowDB支撑的预测模型已应用于美国洪水风险管理系统。基于该数据集训练的算法可生成未来336小时的河流流量概率预报,协助应急管理部门提前部署防洪工程与人员疏散方案。同时,其内嵌的洪灾损失评估子集,为保险公司量化洪涝风险、优化灾害保险产品提供了数据基础。
衍生相关工作
该数据集催生了多项创新研究,例如基于双重注意力循环神经网络(DA-RNN)的流量预测框架,在多个流域验证了时序建模的优越性。后续研究进一步拓展至跨流域迁移学习、洪灾损失分类预测等方向,部分团队甚至发现其预训练模型能提升流行病传播预测性能,体现了水文时序特征在跨领域学习中的迁移价值。
以上内容由遇见数据集搜集并总结生成



