kostaspic/amfitrite-open-waters-hab-sentinel2
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/kostaspic/amfitrite-open-waters-hab-sentinel2
下载链接
链接失效反馈官方服务:
资源简介:
Amfitrite-Open-Waters-HAB-Sentinel2是一个专门用于检测和分类开放水域中有害藻华(HABs)的数据集。该数据集包含2,982个来自Sentinel-2卫星图像的多光谱图像块,分为1,445个HAB块、1,317个非HAB块、110个纯云干扰块和110个纯陆地干扰块。注释方法结合了来自9个不同全球数据集的现场细胞计数测量、空间网格采样以减轻坐标不准确性、CyFi工具的预测以及针对4个不同深度学习模型的交叉验证。该数据集旨在训练机器学习或深度学习模型(如CNNs),用于大规模环境监测和海洋异常检测。
Amfitrite-Open-Waters-HAB-Sentinel2 is a specialized dataset designed for the detection and classification of Harmful Algal Blooms (HABs) in open waters. The dataset consists of 2,982 multispectral image tiles derived from Sentinel-2 satellite imagery, featuring 1,445 HAB tiles, 1,317 non-HAB tiles, 110 pure cloud distractors, and 110 pure land distractors. The annotation methodology integrates in-situ cell count measurements from 9 different global datasets, spatial grid sampling to mitigate coordinate inaccuracies, predictions from the CyFi tool, and cross-validation against 4 distinct Deep Learning models. It is designed to train Machine or Deep Learning models (like CNNs) for large-scale environmental monitoring and ocean anomaly detection.
提供机构:
kostaspic
搜集汇总
数据集介绍

构建方式
Amfitrite-Open-Waters-HAB-Sentinel2数据集以哨兵二号多光谱卫星影像为基底,融合了来自九个全球性数据库的现场细胞计数实测数据,构建了一个面向开放水体有害藻华识别的专业图像集合。在构建策略上,数据集首先将实测坐标周围的区域划分为3×3的网格,提取256×256像素大小的图块,以克服GPS坐标漂移和藻类漂移带来的空间不确定性。随后,每幅图块经CyFi工具与四个深度学习模型集合的交叉验证,并结合人工目视复核,确保标注的可靠性。为平衡类别分布,研究团队还采用时间插值法,在同一位点不同日期获取非HAB影像;此外,精心筛选了110幅纯云与110幅纯陆地作为干扰样本,以增强模型对非水体目标的鲁棒性。
使用方法
该数据集专为训练轻量级卷积神经网络而设计,适用于在轨卫星边缘设备上实时检测有害藻华的场景。使用者可直接基于TFRecord或GeoTIFF格式加载原始光谱波段与SCL分类层,在训练中利用场景分类图遮蔽非水体像素,从而防止模型学习陆域或海岸线的无关特征。数据集提供的主CSV摘要文件包含了每个图块的ID、HAB标签、空间坐标、采集日期与来源数据库等信息,便于用户根据研究需求选择特定区域、时间段或数据源进行子集抽取。模型训练完成后,可借助元数据中的CyFi预测结果与深度学习模型置信度进行比对评估,以实现端到端的环境遥感监测流水线。
背景与挑战
背景概述
该数据集名为Amfitrite Open Waters Harmful Algal Bloom (HAB) Sentinel2,由Konstantinos Pikounis在dAIEDGE项目资助下于2024年创建,旨在利用多光谱卫星遥感影像检测开阔水域及沿岸海洋环境中有害藻华(HABs)。数据集汇集了来自全球9个独立原位测量数据源的2982张Sentinel-2图像瓦片,涵盖HAB、非HAB、纯云和纯陆地干扰样本,为训练轻量级深度学习模型(如CNN)部署于边缘设备(如星载处理器)提供支持,对推动大规模环境监测与海洋异常预警系统的智能化具有重要影响。
当前挑战
有害藻华(HABs)的自动化检测面临多重挑战:首先,远海环境的空间异质性和藻华动态漂移导致传统点测量与卫星过境时空匹配困难;其次,海量遥感数据要求模型兼具高精度与轻量化以适应边缘设备实时处理;此外,数据构建中需克服GPS坐标漂移、影像云覆盖干扰及样本类别不平衡等问题。为此,研究团队采用3x3空间网格采样策略、多模型集成验证(CyFi工具与4个深度学习模型)以及时间插值平衡法,并引入纯云与纯陆地干扰样本,以增强模型的鲁棒性和抗干扰能力。
常用场景
经典使用场景
该数据集专为开放水域和近岸海洋环境中有害藻华(HAB)的检测与分类而生,是训练机器学习与深度学习模型(如卷积神经网络)的宝贵资源。通过提供2992幅哨兵2号多光谱影像图块,其中精心平衡了HAB、非HAB及纯云与纯陆地干扰样本,数据集赋能研究人员构建能够在大尺度上自动识别藻华的智能系统。其经典用法聚焦于利用多光谱波段和场景分类层,开发鲁棒的影像分类模型,实现对海洋异常现象的实时监测。
解决学术问题
该数据集核心解决了海洋遥感领域中因地面实测数据稀疏且坐标漂移,导致卫星影像与藻华事件难以准确关联的学术瓶颈。通过融合9个全球实测数据库、采用3×3空间网格采样策略、并结合CyFi工具与多个深度学习模型进行交叉验证,数据集提供了高置信度的标注。它有效应对了藻华时空动态性强、云层与陆地干扰导致的误报问题,为发展边缘端轻量化、高精度的藻华早期预警模型奠定了数据基础,推动了分布式人工智能在环境科学中的信任与效能研究。
实际应用
在实际应用中,该数据集为构建搭载于卫星或无人机的实时藻华监测系统提供了理想的训练素材。环保机构与海洋管理部门可基于此数据开发的模型,对近海养殖区、旅游海滩及饮用水源地等敏感水域进行持续预警,显著降低有害藻华对公共健康与水产经济的威胁。此外,数据集中的纯云与纯陆干扰样本增强了模型在复杂大气与地理条件下的鲁棒性,使其在业务化遥感监测系统中具备更强的泛化能力,服务于全球海洋生态安全。
数据集最近研究
最新研究方向
在环境遥感与海洋生态监测的前沿领域,Amfitrite-Open-Waters-HAB-Sentinel2数据集的问世为有害藻华(HABs)的智能识别带来了突破性进展。该数据集基于Sentinel-2多光谱卫星影像,融合了来自全球9个原位观测数据库的细胞计数数据与CyFi工具及深度学习模型集成验证,构建了一个包含近3000张经过精细标注与人工校核的影像块库,涵盖HAB、非HAB、纯云和纯陆地干扰样本。尤为重要的是,该数据集指向了边缘AI的部署方向,即支持轻量化卷积神经网络(CNNs)在轨实时异常检测,契合当前分布式、可信与高效边缘智能的研究热点,如dAIEDGE项目所推动的目标。通过引入多模态验证策略与时空插补技术,数据集有效解决了海洋监测中的坐标误差与类别不均衡问题,为建立全球尺度的早期蓝藻爆发预警系统提供了高价值的基础资源,对生态环境治理与公共健康保护具有深远意义。
以上内容由遇见数据集搜集并总结生成



