five

amfitrite-open-waters-hab-sentinel2

收藏
Hugging Face2026-04-30 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/kostaspic/amfitrite-open-waters-hab-sentinel2
下载链接
链接失效反馈
官方服务:
资源简介:
Amfitrite-Open-Waters-HAB-Sentinel2 是一个专门用于检测和分类开放水域中有害藻华(HABs)的数据集。该数据集包含 2,982 个来自 Sentinel-2 卫星图像的多光谱图像块,经过精心平衡和筛选,包括 1,445 个 HAB 图像块、1,317 个非 HAB 图像块、110 个纯云干扰块和 110 个纯陆地干扰块。数据集通过整合来自 9 个不同全球数据集的现场细胞计数测量、空间网格采样以及 CyFi 工具和四个深度学习模型的预测,支持大规模环境监测和海洋异常检测。数据集适用于训练机器学习或深度学习模型(如 CNN),用于实时检测海洋 HABs,并可用于边缘设备部署和环境监测。数据集结构包括原始光谱波段、场景分类图、气溶胶光学厚度图、水蒸气产品图、CyFi 预测图和元数据文件。数据集由 Konstantinos Pikounis 策划,由 dAIEDGE 项目资助,采用 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可。
创建时间:
2026-04-29
原始信息汇总

数据集概述:Amfitrite Open Waters Harmful Algal Bloom (HAB) Sentinel-2

基本信息

  • 数据集名称:Amfitrite-Open-Waters-HAB-Sentinel2
  • 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 任务类型:图像分类(image-classification)
  • 语言:英语(元数据),法语(少量列)
  • 数据集大小:1K < n < 10K(共2,982个样本)
  • 策划者:Konstantinos Pikounis
  • 资助方:dAIEDGE Project
  • 共享方:AMFITRITE Project

数据集描述

该数据集包含多光谱Sentinel-2卫星影像瓦片,聚焦于开阔水域和沿海海洋环境,依据有害藻华(HABs)的潜在存在进行分类。数据集旨在训练机器/深度学习模型,用于大规模环境监测和海洋异常检测。

数据集组成

类别 数量
HAB(有害藻华)瓦片 1,445
non-HAB(非有害藻华)瓦片 1,317
纯云干扰瓦片(>99%像素为云) 110
纯陆地干扰瓦片(>99%像素为陆地) 110
总计 2,982

数据来源

卫星影像

  • 任务:欧洲航天局(ESA)哥白尼计划的Sentinel-2任务
  • 获取平台:Microsoft Planetary Computer

实地测量数据

数据来自9个独立的全球海洋/浮游植物数据库:

  • NOAA HABSOS(墨西哥湾沿岸有害藻华观测系统)
  • Florida FWC HAB Events Database(佛罗里达历史有害藻华事件数据库)
  • SCCOOS / CalHABMAP(加利福尼亚有害藻华监测与预警计划)
  • HAEDAT(全球有害藻华事件数据库,OBIS和IOC-UNESCO管理)
  • OBIS-HAB Mediterranean(地中海有害藻华物种数据库)
  • North American Arctic Microbial Plankton(北美北极地区微生物浮游植物数据库)
  • Algal Blooms Sweden(瑞典藻华数据)
  • SEANOE REPHY dataset(法国沿海水域浮游植物和水文监测计划)
  • dAIEDGE consortium编译数据集

标注逻辑与数据处理流程

  1. 实地数据筛选与阈值设定

    • 仅选择已知会引发有害藻华的物种
    • 潜在HAB(高浓度):细胞计数 > 100,000 cells/mL
    • 非HAB(低浓度):细胞计数 < 10,000 cells/mL
  2. 3x3空间网格策略

    • 以原始测量坐标为中心,生成3x3网格,每个瓦片为256x256像素(约3.5-5公里覆盖范围)
    • 用于克服GPS坐标漂移和藻华漂移问题
  3. 多模型验证与人工评估

    • 使用CyFi工具和4个深度学习模型集成进行验证
    • 所有瓦片经过严格的人工检查,比对CyFi输出、模型置信度和实地期望值
    • 发现标注错误的瓦片会被重新标记或排除
  4. 时间插值用于类别平衡

    • 对缺乏干净非HAB对应瓦片的HAB位置,在不同日期下载新影像
    • 通过相同管线验证,获取额外非HAB瓦片以平衡数据集
  5. 干扰样本

    • 精心筛选110个纯云瓦片和110个纯陆地瓦片
    • 用于训练模型避免将云或陆地误判为HAB

数据组织结构

每个样本存放在独立文件夹中,文件夹命名格式为:ID_类别后缀(例如:104_HAB, 55_clouds)

每个样本包含的文件

  • 原始光谱波段(*_raw.tif):Sentinel-2的12个光谱波段(B01-B08, B8A, B09, B11, B12)
  • 场景分类图(SCL_raw.tif):基于Sen2Cor处理器的像素分类图(11个类别)
  • 气溶胶光学厚度图(AOT_raw.tif)
  • 水汽产品图(WVP_raw.tif)
  • CyFi预测图(cyfi_prediction_map.png):RGB影像叠加CyFi预测网格的可视化(绿:低浓度,橙:中等浓度,红:高浓度蓝藻)
  • 元数据文件(metadata.json):包含影像采集和预测的详细信息
    • sat_item:Sentinel-2产品唯一标识符
    • date:卫星采集日期(YYYY-MM-DD)
    • center_lat / center_lon:瓦片中心经纬度
    • num_pixels:瓦片总像素数(通常为65536)
    • water_pixels:被分类为水的像素数(SCL类别6)
    • per_clouds:云覆盖百分比
    • High counts / Moderate counts / Low counts:CyFi工具分类的网格点数量

主CSV摘要文件(amfitrite_open_waters_master.csv)

包含追踪每个瓦片的完整信息:

  • 核心瓦片信息:ID、是否为HAB(布尔值)
  • 空间与采集信息:中心经纬度、采集日期、卫星产品标识符、数据来源数据集名称、瓦片状态
    • tile_status:关系描述,包括on_measurment(包含测量点)、near_measurment(邻近测量点)、imputed(通过时间插值获取)、land(陆地干扰)、clouds(云干扰)
  • 原始数据集追踪列:针对每个原始数据集的特有追踪列(如事件日期、经纬度、样本ID等)

使用场景

  • AI训练:训练机器/深度学习模型检测海洋和沿海有害藻华
  • 边缘AI部署:训练轻量级卷积神经网络(CNN),部署在边缘设备(如卫星上)实时检测海洋有害藻华
  • 环境监测:开发算法检测开阔水域早期藻华
  • 鲁棒特征学习:包含纯云和纯陆地瓦片,有助于模型学习鲁棒的特征提取,减少对非水体的误报

偏差、风险与限制

  • 模型辅助标注偏差:人工验证高度依赖CyFi和4个内陆训练的深度学习模型,这些模型本身也依赖CyFi进行标注。虽然经过视觉验证,但数据集固有地反映了这些模型的光谱敏感性和偏差

建议

  • 使用场景分类层(SCL)掩码进行训练:用户可利用提供的SCL掩码在训练期间屏蔽非水体像素,防止模型学习不相关的沿海或陆地特征

参考文献

Dorne, E., Wetstone, K., Cerquera, T. B., and Gupta, S. (2024). Cyanobacteria detection in small, inland water bodies with CyFi. In Proceedings of the 23rd Python in Science Conference, pages 154–173.

源数据归属

该数据集包含修改后的Copernicus Sentinel数据。原始数据由欧洲航天局(ESA)通过Microsoft Planetary Computer提供。Sentinel数据的使用受ESA法律声明约束。实地测量数据源自上述9个公共数据集和出版物。

搜集汇总
数据集介绍
main_image_url
构建方式
Amfitrite-Open-Waters-HAB-Sentinel2数据集的构建融合了多源异构数据与严谨的自动化及人工校验流程。首先,从9个全球公开的海洋浮游植物与有害藻华原位观测数据库中提取经纬度与日期信息,并依据细胞计数阈值(>100,000 cells/mL为潜在HAB,<10,000 cells/mL为非HAB)进行初步筛选。随后,围绕每个原位测量点生成3×3的256×256像素网格(覆盖约3.5-5公里范围),以缓解GPS坐标漂移与藻华漂移带来的空间偏差。所有网格瓦片经CyFi工具与4个预训练的深度学习模型(含最鲁棒的AMFITRITE-Sentinel2-HAB-RDNet)组成的集成系统进行预测,再结合人工对CyFi可视化地图与模型置信度的比对进行严格复判,并对标签进行校正。为平衡类别,对HAB位置进行时间推算(下载不同日期的影像)以获取额外的干净非HAB样本。最终,精心筛选并加入了110个纯云瓦片与110个纯陆地瓦片作为干扰项,形成了总计2,982张多光谱影像的均衡数据集。
使用方法
该数据集专为训练与评估用于大规模海洋环境监测的机器学习与深度学习模型而设计。使用时,用户可通过读取主CSV文件获取每个样本的ID与标签,进而索引至对应文件夹中加载12个波段的原始TIFF影像,并将其作为模型的输入特征。推荐利用场景分类图对非水域像素(如陆地、云)进行掩膜处理,以防止模型学习到不相关的海岸或陆地特征,从而提升泛化能力。云与陆地干扰样本可直接作为负样本,用于增强模型的分辨能力与鲁棒性。鉴于数据集包含详细的CyFi预测图与模型置信度信息,研究者可将其用于弱监督学习、模型蒸馏或可解释性分析。此外,由于数据集的构建目标之一即是训练轻量级卷积神经网络以实现星载边缘设备的实时推理,开发者可在此基础上裁剪模型结构并部署于边缘计算平台,构建早期藻华预警系统。
背景与挑战
背景概述
有害藻华(Harmful Algal Blooms, HABs)已成为全球海洋生态系统中最为严峻的环境问题之一,对公共健康、水产养殖及沿海经济构成重大威胁。在此背景下,由Konstantinos Pikounis主导、依托dAIEDGE项目资助的Amfitrite-Open-Waters-HAB-Sentinel2数据集于近期发布,旨在利用多光谱卫星遥感影像实现开放水域有害藻华的智能检测。该数据集汇集了来自9个全球实地测量数据库的2982张Sentinel-2卫星影像切片,通过整合原位细胞计数、CyFi工具预测及四个深度学习模型的交叉验证,构建了一套精细的标注体系。作为Amfitrite系列在开阔水域的拓展,该数据集不仅丰富了海洋环境遥感领域的高质量标注资源,更推动了轻量化卷积神经网络在星载边缘设备上的部署研究,为建立全球性的藻华预警系统提供了重要支撑。
当前挑战
该数据集所面临的挑战首先体现在领域问题本身:有害藻华的空间分布高度动态、光谱特征复杂多变,尤其是在开阔海域中,云层干扰、大气校正误差及水体光学浅水效应等因素导致传统图像分类方法难以实现稳定鲁棒的检测。其次,数据构建过程同样充满困难:不同源数据集的坐标精度参差不齐,且原位测量时刻与卫星过境时间存在时差,使得藻华空间匹配极具不确定性。为此,研究者采用3×3空间网格采样策略来缓解GPS漂移与漂移现象,并通过时间插值法获取非藻华负样本以平衡类别分布。此外,标注过程引入CyFi工具与四个内陆训练模型的集成投票机制,但这一依赖机器辅助的显著偏差可能使数据集继承原模型的光谱敏感性,增加了标注不确定性与泛化风险。
常用场景
经典使用场景
Amfitrite-Open-Waters-HAB-Sentinel2数据集的核心用途在于训练与评估基于多光谱卫星影像的深度学习模型,以实现开阔水域及近岸海洋环境中有害藻华(HAB)的精准自动识别。该数据集包含2982幅Sentinel-2影像瓦片,经精心平衡后涵盖HAB样本、非HAB样本以及纯云和纯陆地干扰样本,为构建鲁棒的图像分类模型提供了理想数据基础。研究者常将其作为基准,设计卷积神经网络架构,尤其关注轻量化模型以适应星载边缘设备的实时推理需求。该数据集也广泛用于对比评估不同预处理策略、波段组合及分类损失函数对HAB检测精度的影响,是遥感与海洋环境交叉领域的标志性数据资源。
解决学术问题
该数据集有效回应了海洋遥感领域中因缺乏高质量、平衡且经过严格地面验证的HAB影像集而长期存在的研究瓶颈。通过整合全球9个独立现场观测数据集、采用3×3空间网格采样策略以及结合CyFi工具与多模型集成验证的标注方法论,解决了因GPS漂移、水团迁移导致的时空错配难题。其创新性设计使得原本依赖单点实测数据难以实现的卫星尺度HAB空间分布建模成为可能,同时引入的纯云与纯陆干扰样本显著提升了模型对非目标地物的抗干扰能力。该工作推动了从定性监测向定量、自动化、可部署的遥感HAB预警系统的范式转变,为边缘计算环境下的可信AI应用提供了关键的训练与评估基准。
实际应用
在实际应用中,该数据集主要赋能于构建基于卫星遥感的近实时有害藻华预警系统,服务于海洋环境保护、水产养殖管理及公共卫生决策。基于该数据集训练的高精度轻量化模型能够部署于低功耗边缘设备,例如搭载于CubeSat等小型卫星或海上浮标,实现对开阔水域与近岸海域藻华动态的连续自主监测。这一能力可显著降低对传统船舶采样和实验室分析的依赖,大幅提升对突发性藻华事件的响应速度。此外,数据集的标准化结构与详尽元数据使其能够无缝融入现有地球观测数据管道,支持跨区域、多时间尺度的藻华演化规律分析,为蓝碳收支评估与海洋生态系统健康诊断提供数据支撑。
数据集最近研究
最新研究方向
基于多源Sentinel-2卫星影像与全球实地采样数据的深度学习有害藻华(HAB)智能检测研究,聚焦于边缘计算与实时环境监测系统的集成。该数据集通过融合来自9个国际公开数据的原位细胞计数测量、CyFi工具预测以及多模型交叉验证,构建了包含HAB、非HAB、纯云与纯陆地干扰样本的高度均衡的多光谱影像集。当前研究前沿集中在利用轻量级卷积神经网络(CNN)实现星载或近星边缘设备的片上推理,以支撑dAIEDGE项目所倡导的分布式、可信赖、高效能的边缘人工智能架构。这一探索不仅提升了海洋异常监测的响应速度与自动化水平,也为全球开放水域生态预警系统提供了可扩展的基准数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作