Sentinel-2 and Sentinel-1 flood segmentation dataset

Name: Sentinel-2 and Sentinel-1 flood segmentation dataset
Creator: 阿贡国家实验室; 芝加哥大学; 奥隆尼学院
Published: 2026-06-30 00:19:59
License: 暂无描述

arXiv2026-06-30 更新2026-07-01 收录

下载链接：

https://arxiv.org/abs/2606.30511v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由阿贡国家实验室主导构建的高分辨率洪水遥感数据集，覆盖美国本土，专注于提升洪水制图的精度与鲁棒性。数据集包含146幅Sentinel-2多光谱图像与7,846幅Sentinel-1 SAR图像，均以4km×4km瓦片形式提供10米分辨率的水体掩码，数据来源于欧洲空间局的Sentinel系列卫星，并通过极端降水阈值筛选与人工标注相结合的方式采集。数据集创建过程采用严格的地理空间标注协议，并引入地形、道路等辅助地理物理层以增强模型泛化能力，旨在解决云层、阴影、城市环境及SAR斑点噪声等复杂场景下的洪水监测难题，推动深度学习在灾害应急响应与资源管理中的应用。

This high-resolution flood remote sensing dataset, led by Argonne National Laboratory, covers the contiguous United States and focuses on improving the accuracy and robustness of flood mapping. The dataset consists of 146 Sentinel-2 multispectral images and 7,846 Sentinel-1 SAR images, all providing 10-meter resolution water masks in the form of 4km×4km tiles. The data is sourced from the Sentinel series satellites of the European Space Agency and collected through a combination of extreme precipitation threshold screening and manual annotation. The dataset construction process adopts strict geospatial annotation protocols, and incorporates auxiliary geophysical layers such as topography and roads to enhance model generalization capability, aiming to address the challenges of flood monitoring in complex scenarios including cloud cover, shadows, urban environments, and SAR speckle noise, and promote the application of deep learning in disaster emergency response and resource management.

提供机构：

阿贡国家实验室; 芝加哥大学; 奥隆尼学院

创建时间：

2026-06-30

搜集汇总

数据集介绍

构建方式

该数据集由Sentinel-2多光谱影像与Sentinel-1合成孔径雷达（SAR）影像共同构成，覆盖美国本土。Sentinel-2数据集包含146幅4 km×4 km的洪水事件影像，其像素级10米水陆掩膜经由严格的地球空间标注协议手工制作，并结合高分辨率谷歌卫星影像、数字高程模型、水体指数等多源辅助数据进行逐像素校正。Sentinel-1数据集则包含7,846幅SAR影像，其标签通过弱监督方式从时间邻近的Sentinel-2影像迁移而来，即采用经充分训练的Sentinel-2分割模型生成初版机器标签，并经人工筛查剔除低质量样本。此外，还构建了由38,252幅多时相SAR堆栈组成的复合数据集，用于训练基于条件变分自编码器（CVAE）的生成式去斑模型。

特点

该数据集最显著的特点在于其像素级标注精度与对困难场景的侧重。手工标注的水体掩膜达到10米原生分辨率，能够清晰识别单像素宽的水体边界，克服了传统自动阈值法在云阴影、薄卷云、城市复杂地物等场景下的误分类问题。数据集特别强调恶劣天气条件（如阴霾、厚云遮挡）和城市环境中的洪水检测，这在现有公开数据集中较少被覆盖。同时，SAR数据集引入了位移不变损失函数，以容忍跨传感器影像间高达20米的地理定位不确定性，并采用CVAE生成式去斑模型抑制SAR相干斑噪声，同时保留洪水相关的空间结构，有效提升了SAR数据在分割任务中的可用性。

使用方法

该数据集适用于训练和评估基于深度学习的多光谱与SAR洪水分割模型。Sentinel-2影像使用时包含红光、绿光、蓝光、近红外、短波红外等光谱波段以及归一化水体指数、改进型归一化水体指数、自动水体提取指数等衍生特征，共计16个输入通道。Sentinel-1影像则使用VV和VH极化后向散射强度，结合数字高程模型、坡度、永久水体、道路等辅助层，共8个输入通道。数据集已按照80%/10%/10%划分为训练、验证和测试集，并按地理区域、场景类型、天气条件和洪水存在性进行了分层，以降低评估偏差。影像被处理为64×64或68×68像素的图块，支持基于UNet和UNet++架构的模型训练，并推荐使用Tversky损失函数应对正负样本严重不平衡的问题。

背景与挑战

背景概述

Sentinel-2与Sentinel-1洪水分割数据集由美国阿贡国家实验室的研究团队于2026年创建，主要研究人员包括David Ma、Jeremy Feinstein等人。该数据集聚焦于高分辨率洪水制图的核心研究问题，旨在克服多光谱光学影像受云、阴影及城市地物干扰，以及合成孔径雷达（SAR）影像受相干斑噪声和传感器配准不确定性的双重限制。数据集覆盖美国本土，提供10米像素精度的水体掩膜，特别强调现有基准中缺乏的恶劣天气和城市环境的洪水场景，显著推动了深度学习在洪水遥感监测领域的应用与评价标准。

当前挑战

该数据集面临的核心挑战包括：跨传感器空间配准误差导致的伪影，光学与SAR影像间地理定位不确定性可达20米；SAR影像固有的相干斑噪声严重干扰精细水体边界的分割精度；多光谱影像中云、阴影及沥青等类水域地物常引发误判；以及现有公开数据集标注质量不足，多采用半自动阈值方法，缺乏对复杂地类与成像条件下的高保真像素级标注。此外，构建过程中需平衡极端降水事件时空采样的覆盖率、手动标注的高成本与大规模弱标签生成的质量控制等难题。

常用场景

经典使用场景

在遥感与洪水制图领域，Sentinel-2和Sentinel-1洪水分割数据集为多传感器协同的深度学习模型提供了高质量的标注训练样本。该数据集覆盖美国本土，包含146张Sentinel-2多光谱影像与7846张Sentinel-1合成孔径雷达（SAR）影像，每张影像均附带10米空间分辨率的像素级水陆掩膜。其经典的使用方式在于训练语义分割网络（如UNet和UNet++），从光学与雷达影像中精准提取洪水范围，尤其擅长处理多云、阴影及城市等复杂场景，弥补了现有基准数据集在这些条件下的代表性不足。

衍生相关工作

该数据集衍生了一系列经典的后续研究工作。其一，针对SAR与光学影像间的几何错位问题，研究者提出了平移不变损失函数，通过容忍像素级偏移来消除跨传感器配准误差对训练带来的偏差，显著提升了SAR模型在冻结精度对齐标签上的表现。其二，基于该数据集训练的CVAE去斑模型，首次将条件变分自编码器引入SAR生成式去斑领域，相较于经典的Lee滤波器在峰值信噪比、结构相似性与等效视数等指标上取得全面优势，开创了生成式去斑用于业务化洪水制图的新范式。这些工作不仅深化了对遥感数据异质性的理解，也为多模态融合学习提供了方法论支柱。

数据集最近研究