Coralscapes Dataset
收藏arXiv2025-03-26 更新2025-03-28 收录
下载链接:
https://huggingface.co/datasets/EPFL-ECEO/coralscapes
下载链接
链接失效反馈官方服务:
资源简介:
Coralscapes数据集是一个用于珊瑚礁语义场景理解的一般目的密集语义分割数据集,由瑞士洛桑联邦理工学院等机构创建。该数据集包含2075张图像,39个底栖类别,以及174k个由专家标注的分割掩膜。数据集的图像来源于红海五个国家的35个潜水地点,旨在推动计算机视觉在珊瑚礁保护和研究中的应用,并为语义分割模型提供一个新的具有挑战性的测试领域。
The Coralscapes Dataset is a general-purpose dense semantic segmentation dataset for semantic scene understanding of coral reefs, developed by institutions including École Polytechnique Fédérale de Lausanne (EPFL) in Switzerland and other organizations. It contains 2075 images, 39 benthic categories, and 174k expert-annotated segmentation masks. The images in the dataset are sourced from 35 dive sites across five countries in the Red Sea. This dataset aims to promote the application of computer vision in coral reef conservation and research, and provide a challenging new testbed for semantic segmentation models.
提供机构:
瑞士洛桑联邦理工学院环境计算科学与地球观测实验室,洛桑联邦理工学院生物地球化学实验室,英国埃克塞特大学生态与保护中心,澳大利亚昆士兰大学环境学院,瑞士洛桑大学高级表面分析中心
创建时间:
2025-03-26
搜集汇总
数据集介绍

构建方式
Coralscapes数据集的构建过程体现了严谨的科学态度与专业化的数据采集策略。研究团队通过35个红海沿岸潜水点系统性采集了2075张1024×2048px分辨率的水下视频帧,覆盖从健康到白化的多样化珊瑚礁场景。数据标注由10名珊瑚礁专家团队采用保守标注原则完成,通过CVAT平台结合Segment Anything模型辅助,手工绘制了17.4万个多边形标注,涵盖39个底栖生物类别。为确保地理独立性,数据集按潜水点划分为训练集(1517张/27站点)、验证集(166张/3站点)和测试集(392张/5站点),严格遵循Cityscapes数据集的结构规范。
使用方法
研究人员可通过Huggingface或Zenodo平台获取标准化数据,其PNG格式图像与JSON标注文件兼容主流计算机视觉框架。典型应用流程包括:模型预训练阶段采用空间独立划分确保地理泛化性;迁移学习时可利用其丰富的类别层次结构(如图8所示的层级标签体系)适配不同粒度的下游任务;实际部署时建议结合数据增强策略应对类别不平衡,并注意水下特有的光学畸变校正。该数据集特别适用于开发珊瑚礁监测机器人、三维海底重建等应用,其提供的连续视频帧(每张图像包含前后30帧上下文)还可支持时序分析任务。
背景与挑战
背景概述
Coralscapes Dataset由瑞士洛桑联邦理工学院(EPFL)的环境计算科学与地球观测实验室主导,联合多国研究机构于2025年发布,是全球首个面向珊瑚礁场景理解的通用语义分割数据集。该数据集包含2075张高分辨率图像、39种底栖生物类别及17.4万个专家标注的密集分割掩膜,旨在解决珊瑚礁生态系统监测中计算机视觉应用的瓶颈问题。其设计参照Cityscapes数据集标准,填补了珊瑚礁领域缺乏高质量基准数据集的空白,为珊瑚白化监测、生态机器人开发等研究提供了关键基础设施,对海洋保护领域具有里程碑意义。
当前挑战
该数据集面临双重挑战:领域层面需克服珊瑚形态可塑性导致的类间模糊性(如活体/死亡/白化珊瑚的视觉区分)、水下光学畸变对色彩和清晰度的影响,以及跨生物地理区域珊瑚表型差异等问题;构建层面则受限于专家标注的高成本(需专业海洋生物学家参与)、标签层次设计中的分类学深度权衡(仅标注形态学可辨识特征),以及复杂场景中多尺度目标(从毫米级藻类到米级珊瑚群)的标注一致性维护。此外,数据采集还需应对水下环境动态干扰(如鱼类游动、潜水员活动)对图像质量的影。
常用场景
经典使用场景
珊瑚礁生态系统的语义分割研究是Coralscapes数据集最经典的使用场景。该数据集通过2075张高分辨率图像和174k个专家标注的分割掩码,为计算机视觉模型提供了丰富的训练素材。研究人员利用该数据集开发自动化珊瑚识别算法,实现对珊瑚生长形态、健康状态(如白化、死亡)的精准分类,这在传统依赖人工的珊瑚礁调查中具有革命性意义。数据集的结构设计借鉴了Cityscapes标准,使得语义分割领域的先进模型能够直接迁移应用。
解决学术问题
Coralscapes有效解决了珊瑚礁监测中数据稀缺的核心学术问题。其覆盖5个国家39种底栖类别的多样性标注,突破了既往数据集局限于正交镶嵌图或照片样方的局限性。通过强制空间划分的训练/测试集设计,该数据集首次实现了跨地理区域的模型泛化能力评估。针对珊瑚形态可塑性和水下图像退化等挑战,专家标注策略采用保守分类原则,显著降低了因视觉模糊导致的标签噪声,为模型开发提供了可靠的基准平台。
实际应用
该数据集在珊瑚礁保护实践中展现出多重价值。其支撑的自动化分析系统已应用于红海地区热耐受珊瑚基因型的快速筛查,为气候适应型保护策略提供数据支持。在棘冠海星爆发监测中,基于Coralscapes预训练的模型将目标检测mAP@50提升至54.2%,显著优于传统方法。此外,分割结果还被集成至水下机器人视觉SLAM系统,通过剔除鱼类、潜水员等动态干扰物,提升了三维礁石重建的精度。
数据集最近研究
最新研究方向
随着全球气候变化对珊瑚礁生态系统的持续威胁,Coralscapes数据集的发布为珊瑚礁监测与保护研究开辟了新的技术路径。该数据集通过2075张专家标注的高分辨率图像和17.4万个分割掩码,首次实现了珊瑚礁场景的通用语义分割,填补了该领域高质量标注数据的空白。当前研究主要聚焦于三个前沿方向:基于迁移学习的跨区域珊瑚分类模型优化,利用该数据集预训练的模型在UCSD马赛克数据集上实现了稀疏标注条件下46.14%的mIoU提升;水下机器人视觉导航系统的开发,通过语义分割掩码有效消除了动态物体对三维重建的干扰;以及珊瑚白化早期预警系统的构建,在红海刺冠海星检测任务中使mAP@50指标提升14.9个百分点。这些突破性进展正推动计算机视觉技术在海洋生态保护中的标准化应用,特别是在2025年联合国海洋科学促进可持续发展十年计划框架下,该数据集为建立全球珊瑚礁健康评估体系提供了关键技术支持。
相关研究论文
- 1The Coralscapes Dataset: Semantic Scene Understanding in Coral Reefs瑞士洛桑联邦理工学院环境计算科学与地球观测实验室,洛桑联邦理工学院生物地球化学实验室,英国埃克塞特大学生态与保护中心,澳大利亚昆士兰大学环境学院,瑞士洛桑大学高级表面分析中心 · 2025年
以上内容由遇见数据集搜集并总结生成



