amfitrite-inland-waters-hab-sentinel2
收藏Hugging Face2026-01-08 更新2026-01-09 收录
下载链接:
https://huggingface.co/datasets/kostaspic/amfitrite-inland-waters-hab-sentinel2
下载链接
链接失效反馈官方服务:
资源简介:
Amfitrite-Inland-Waters-HAB-Sentinel2是一个专门用于检测和分类内陆水体(如湖泊、水库和河流)中有害藻华(HABs)的数据集。该数据集包含来自Sentinel-2卫星影像的多光谱图像块,使用CyFi工具预测HAB的类别,并结合CAML蓝藻丰度数据集生成指示性类别(高、中、低)。数据集包含原始光谱波段、水掩膜和带有丰度指标的元数据,共4698个案例。该数据集旨在训练深度学习模型(如CNN)用于环境监测,特别支持边缘AI设备的实时检测。数据集由Konstantinos Pikounis整理,由dAIEDGE项目资助,共享于AMFITRITE项目。
创建时间:
2026-01-07
原始信息汇总
Amfitrite Inland Waters Harmful Algal Bloom (HAB) 数据集概述
数据集基本信息
- 数据集名称: Amfitrite-Inland-Waters-HAB-Sentinel2
- 主要用途: 用于训练深度学习模型(如CNN)进行内陆水体有害藻华(HABs)的检测与分类。
- 任务类别: 图像分类
- 语言: 英语(元数据)
- 标签: 地球观测、遥感、哨兵-2、水质、有害藻华、环境
- 许可协议: Creative Commons Attribution 4.0 International (CC BY 4.0)
- 数据规模: 1K<n<10K
- 维护者: Konstantinos Pikounis
- 资助方: dAIEDGE 项目
- 共享方: AMFITRITE 项目
数据集详情
该数据集包含针对内陆水体(湖泊、水库和河流)的多光谱哨兵-2卫星影像瓦片,并根据有害藻华(HABs)的严重程度进行分类。数据集结合了来自哨兵-2 L2A场景分类图的像素标签、Cyanobacteria Aggregated Manual Labels (CAML) 蓝藻丰度数据集以及 CyFi 工具的预测,生成了“高”、“中”、“低”三个指示性类别。数据集包含4698个案例的原始光谱波段、水体掩膜和带有丰度指标的元数据。
数据集结构
数据集按唯一标识符(UID)组织,该标识符是地理区域关联编号与卫星影像日期的拼接。文件夹名称为这些UID。
每个样本的文件夹结构
- 原始光谱波段 (
*_raw.tif): 来自哨兵-2的12个光谱波段(B01-B08, B8A, B09, B11, B12)。 - 场景分类 (
SCL_raw.tif): 基于Sen2Cor处理器将像素分为11类(例如水体、云、植被、雪)的地图。 - 气溶胶光学厚度图 (
AOT_raw.tif): 基于Sen2Cor处理器的气溶胶光学厚度图。 - 元数据 (
metadata.json): 包含影像获取、测量和模型预测的详细信息。 - CyFi 预测 (
cyfi_lattice_predictions.csv): 包含 CyFi 工具对10像素网格点预测的CSV文件。 - CyFi 预测图 (
cyfi_prediction_map.png): 用于视觉验证的复合可视化图像。 - 数据集摘要文件 (
dataset_summary.xlsx): 汇总数据集中所有案例的元数据、测量和分类结果的表格。
元数据 (metadata.json) 关键字段
item_id: 哨兵-2产品唯一标识符。per_clouds: 瓦片被云覆盖的百分比。water_pixels: 瓦片中被分类为水体的像素总数。uid: 与文件夹名匹配的唯一案例ID。abun: 来自CAML的最高丰度值。tile_size_10m_pixels: 瓦片的期望宽度/高度(始终为365像素)。date: 测量日期(YYYY-MM-DD)。center_lat/center_lon: 瓦片中心的经纬度坐标。points_data: 与此位置关联的特定地面实况测量值列表。High counts/Moderate counts/Low counts: 在此瓦片中,被 CyFi 工具分类到各严重等级的10像素网格点的数量。compatibility_analysis: 数据集整理期间生成的元数据,用于验证卫星预测与地面实况的匹配度。
瓦片策略与尺寸
数据集旨在支持CNN的 256x256 像素输入。
- 标准尺寸: 大多数瓦片裁剪为 365x365像素。
- 原理: 此尺寸允许数据增强流程围绕中心旋转图像并提取256x256裁剪,而不会引入空白角(黑色填充)。
- 例外: 如果原始卫星条带在目标位置附近结束,或者水体靠近瓦片边缘,则某些瓦片可能具有更小的尺寸。
数据来源与处理
源数据
- 卫星影像: 欧洲空间局(ESA)哥白尼计划的 哨兵-2 任务获取的多光谱光学卫星影像。
- 测量数据: 来自Gupta等人的Cyanobacteria Aggregated Manual Labels (CAML) 数据集。
标注逻辑
标注遵循严重性优先原则:
- 高: 如果图像的任一部分包含高严重性藻华,则整个瓦片归类为“高”。
- 中: 如果未检测到高严重性藻华但存在中严重性藻华,则整个瓦片归类为“中”。
- 低: 仅当水体没有高或中严重性藻华时,瓦片才标记为“低”。
数据收集与处理流程
- 位置来源: 从CAML数据集中获取地理位置和丰度测量值,并将其聚类为2560m x 2560m的正方形区域。
- 影像检索: 使用预定义的正方形区域查询Microsoft Planetary Computer,获取CAML测量日期±15天内的哨兵-2 Level-2A影像,选择云覆盖率最低的影像。提取365x365像素的瓦片,并将20m和60m分辨率的波段上采样至10m。
- 影像分类方法: 在场景分类图层(SCL)中标记为“水体”的所有区域建立每10像素的网格点,使用 CyFi 工具处理这些点,并根据网格对整个图像进行分类。
- 最终选择: 选择在SCL地图中具有>6554个水体像素(约占256x256核心区域的10%)且至少有50个网格点被 CyFi 工具成功预测的图像。
偏见、风险与限制
- 地理偏见: 影像位置严格基于 Gupta等人的CAML数据集 的采样点收集,因此继承了该研究的地理分布(北美站点)。
- 云覆盖: 尽管经过过滤,一些瓦片仍可能包含影响光谱响应的薄卷云或云阴影。
- 陆地邻接: 内陆水体瓦片常包含海岸线。“混合像素”可能引入噪声。
- 继承的模型偏见: 方法结合了 CyFi 工具固有的偏见。
- 分类特异性: CAML数据集仅关注蓝藻引起的有害藻华(HABs)。分类逻辑和丰度预测可能无法推广到由其他微生物引起的HABs。
使用建议
- 裁剪后的类别验证: 用户必须注意,对365x365像素瓦片进行固定的中心裁剪至256x256像素可能会丢失感兴趣区域或导致类别标签偏移。强烈建议用户在裁剪后验证水体掩膜(SCL)百分比,并基于特定裁剪窗口内剩余的点重新计算类别标签。
- 使用场景分类图层(SCL)掩膜: 在训练期间,应使用提供的SCL掩膜掉非水体像素,以防止模型学习陆地特征。
- 验证尺寸: 部分图像可能小于365x365像素。用户应在批处理前验证尺寸。
参考文献
- Gupta, S., Gelbart, E., Gupta, R., Wetstone, K., and Dorne, E. (2024). Cyanobacteria aggregated manual labels dataset (nasa and drivendata).
- Dorne, E., Wetstone, K., Cerquera, T. B., and Gupta, S. (2024). Cyanobacteria detection in small, inland water bodies with cyfi. In Proceedings of the 23rd Python in Science Conference, pages 154–173.
源数据归属
该数据集包含修改后的 哥白尼哨兵数据 [2017-2021]。原始数据由 欧洲空间局(ESA) 通过 Microsoft Planetary Computer 提供。哨兵数据的使用需遵守 ESA法律声明。
搜集汇总
数据集介绍

构建方式
在环境遥感领域,针对内陆水体有害藻华监测的需求,该数据集通过整合多源数据构建而成。其核心流程始于从CAML数据集获取地理坐标与实地测量数据,以此为基础划定2560米见方的区域网格。随后利用微软行星计算机平台检索对应区域的哨兵二号L2A级影像,在测量日期前后15天窗口内筛选云覆盖率低于7.5%且日期最近的优质图像。影像经过重采样统一至10米空间分辨率,并裁剪为365×365像素的瓦片以支持数据增强。标注过程采用层级化策略:首先基于场景分类图层识别水体像素,在其上建立十像素间隔的预测网格,运用CyFi工具估算藻华密度;再结合CAML实地测量值,通过统计兼容性分析验证预测可靠性,最终根据网格点中高、中、低严重程度的分布比例,为每个瓦片分配指示性类别标签。
使用方法
为有效利用该数据集进行有害藻华智能检测模型开发,使用者需遵循特定的数据处理流程。加载数据时,应优先读取元数据文件以获取影像获取日期、地理坐标、云覆盖比例及类别标签等关键信息。在预处理阶段,务必利用提供的场景分类图层掩膜剔除非水体像素,避免模型学习无关地物特征;若进行中心裁剪至256×256像素,必须重新计算裁剪区域内剩余预测点的类别分布,以修正因空间异质性导致的标签偏移风险。训练过程中可结合原始光谱波段与衍生指数构建输入特征,并参考数据集总结文件中的训练优先级字段构建均衡的训练子集。对于边缘设备部署场景,建议利用数据增强技术扩充样本,并开发轻量级卷积神经网络架构以实现实时监测能力。
背景与挑战
背景概述
Amfitrite-Inland-Waters-HAB-Sentinel2数据集由Konstantinos Pikounis等人于2024年创建,隶属于dAIEDGE与AMFITRITE项目,旨在利用哨兵二号卫星的多光谱影像,监测内陆水体中有害藻华的严重程度。该数据集整合了CAML地面实测数据与CyFi机器学习工具的预测结果,为深度学习模型提供了高精度的训练样本,推动了边缘计算在环境遥感领域的应用,对构建实时、高效的藻华早期预警系统具有重要科学价值。
当前挑战
该数据集致力于解决有害藻华遥感监测中的核心挑战,即如何从复杂的光谱信号中准确识别并分类藻华的不同严重等级。在构建过程中,面临多重技术难题:地理分布受限于CAML数据源的北美区域,可能引入采样偏差;云层覆盖与水体边缘的混合像元干扰了光谱分析的纯净度;依赖CyFi工具的预测结果可能继承其模型固有的系统误差;此外,数据裁剪操作易导致感兴趣区域丢失或类别标签偏移,对模型训练的准确性构成潜在风险。
常用场景
经典使用场景
在环境遥感领域,Amfitrite内陆水域有害藻华Sentinel-2数据集为深度学习模型训练提供了关键支持。其经典应用场景聚焦于利用Sentinel-2多光谱影像,通过卷积神经网络对内陆水体中的有害藻华进行自动化检测与严重程度分类。该数据集通过整合卫星遥感数据与地面实测标签,构建了从低到高的三级分类体系,为研究人员开发高精度藻华识别算法奠定了数据基础,尤其适用于处理大范围、高频次的水环境监测任务。
解决学术问题
该数据集有效应对了环境科学中藻华动态监测的若干核心挑战。它通过融合Sentinel-2 L2A级影像与CAML地面实测数据,解决了遥感反演中光谱信号与实地生物量之间的关联建模难题。其标注策略遵循严重性优先原则,确保了模型对局部高威胁藻华的敏感识别,而非简单平均化处理,这有助于提升早期预警系统的可靠性。数据集的结构设计还支持轻量化CNN模型训练,推动了边缘计算在实时环境监测中的学术探索。
实际应用
在实际环境管理层面,该数据集支撑了有害藻华的自动化监测与预警系统开发。基于其训练的模型可部署于卫星或地面边缘设备,实现对湖泊、水库及河流等内陆水体的近实时藻华检测。这为水资源管理部门提供了及时、大范围的藻华分布信息,辅助制定相应的水质保护与公共健康干预措施。此外,数据集还可用于评估气候变化与人类活动对藻华爆发频率与强度的影响,为长期生态研究提供数据支撑。
数据集最近研究
最新研究方向
在环境遥感领域,基于Sentinel-2卫星影像的内陆水体有害藻华监测数据集正推动深度学习模型向边缘计算场景的深度迁移。前沿研究聚焦于开发轻量化卷积神经网络,旨在实现星载或近地边缘设备的实时、低功耗藻华预警,这契合了欧盟dAIEDGE项目对分布式可信边缘智能的愿景。结合CAML地面实测与CyFi工具预测的混合标注策略,为模型训练提供了高置信度的监督信号,但当前研究也面临地理偏差、影像裁剪导致的标签噪声以及藻华斑块异质性等挑战。学者们正探索利用场景分类图层进行精准水体掩膜、设计自适应空间裁剪机制以保持标签一致性,并尝试将模型泛化至不同地理区域与藻类物种,从而提升全球内陆水环境动态监测的鲁棒性与实用性。
以上内容由遇见数据集搜集并总结生成



