five

Coralscapes Dataset|珊瑚礁研究数据集|计算机视觉数据集

收藏
arXiv2025-03-26 更新2025-03-28 收录
珊瑚礁研究
计算机视觉
下载链接:
https://huggingface.co/datasets/EPFL-ECEO/coralscapes
下载链接
链接失效反馈
资源简介:
Coralscapes数据集是一个用于珊瑚礁语义场景理解的一般目的密集语义分割数据集,由瑞士洛桑联邦理工学院等机构创建。该数据集包含2075张图像,39个底栖类别,以及174k个由专家标注的分割掩膜。数据集的图像来源于红海五个国家的35个潜水地点,旨在推动计算机视觉在珊瑚礁保护和研究中的应用,并为语义分割模型提供一个新的具有挑战性的测试领域。
提供机构:
瑞士洛桑联邦理工学院环境计算科学与地球观测实验室,洛桑联邦理工学院生物地球化学实验室,英国埃克塞特大学生态与保护中心,澳大利亚昆士兰大学环境学院,瑞士洛桑大学高级表面分析中心
创建时间:
2025-03-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
Coralscapes数据集的构建过程体现了严谨的科学态度与专业化的数据采集策略。研究团队通过35个红海沿岸潜水点系统性采集了2075张1024×2048px分辨率的水下视频帧,覆盖从健康到白化的多样化珊瑚礁场景。数据标注由10名珊瑚礁专家团队采用保守标注原则完成,通过CVAT平台结合Segment Anything模型辅助,手工绘制了17.4万个多边形标注,涵盖39个底栖生物类别。为确保地理独立性,数据集按潜水点划分为训练集(1517张/27站点)、验证集(166张/3站点)和测试集(392张/5站点),严格遵循Cityscapes数据集的结构规范。
使用方法
研究人员可通过Huggingface或Zenodo平台获取标准化数据,其PNG格式图像与JSON标注文件兼容主流计算机视觉框架。典型应用流程包括:模型预训练阶段采用空间独立划分确保地理泛化性;迁移学习时可利用其丰富的类别层次结构(如图8所示的层级标签体系)适配不同粒度的下游任务;实际部署时建议结合数据增强策略应对类别不平衡,并注意水下特有的光学畸变校正。该数据集特别适用于开发珊瑚礁监测机器人、三维海底重建等应用,其提供的连续视频帧(每张图像包含前后30帧上下文)还可支持时序分析任务。
背景与挑战
背景概述
Coralscapes Dataset由瑞士洛桑联邦理工学院(EPFL)的环境计算科学与地球观测实验室主导,联合多国研究机构于2025年发布,是全球首个面向珊瑚礁场景理解的通用语义分割数据集。该数据集包含2075张高分辨率图像、39种底栖生物类别及17.4万个专家标注的密集分割掩膜,旨在解决珊瑚礁生态系统监测中计算机视觉应用的瓶颈问题。其设计参照Cityscapes数据集标准,填补了珊瑚礁领域缺乏高质量基准数据集的空白,为珊瑚白化监测、生态机器人开发等研究提供了关键基础设施,对海洋保护领域具有里程碑意义。
当前挑战
该数据集面临双重挑战:领域层面需克服珊瑚形态可塑性导致的类间模糊性(如活体/死亡/白化珊瑚的视觉区分)、水下光学畸变对色彩和清晰度的影响,以及跨生物地理区域珊瑚表型差异等问题;构建层面则受限于专家标注的高成本(需专业海洋生物学家参与)、标签层次设计中的分类学深度权衡(仅标注形态学可辨识特征),以及复杂场景中多尺度目标(从毫米级藻类到米级珊瑚群)的标注一致性维护。此外,数据采集还需应对水下环境动态干扰(如鱼类游动、潜水员活动)对图像质量的影。
常用场景
经典使用场景
珊瑚礁生态系统的语义分割研究是Coralscapes数据集最经典的使用场景。该数据集通过2075张高分辨率图像和174k个专家标注的分割掩码,为计算机视觉模型提供了丰富的训练素材。研究人员利用该数据集开发自动化珊瑚识别算法,实现对珊瑚生长形态、健康状态(如白化、死亡)的精准分类,这在传统依赖人工的珊瑚礁调查中具有革命性意义。数据集的结构设计借鉴了Cityscapes标准,使得语义分割领域的先进模型能够直接迁移应用。
解决学术问题
Coralscapes有效解决了珊瑚礁监测中数据稀缺的核心学术问题。其覆盖5个国家39种底栖类别的多样性标注,突破了既往数据集局限于正交镶嵌图或照片样方的局限性。通过强制空间划分的训练/测试集设计,该数据集首次实现了跨地理区域的模型泛化能力评估。针对珊瑚形态可塑性和水下图像退化等挑战,专家标注策略采用保守分类原则,显著降低了因视觉模糊导致的标签噪声,为模型开发提供了可靠的基准平台。
实际应用
该数据集在珊瑚礁保护实践中展现出多重价值。其支撑的自动化分析系统已应用于红海地区热耐受珊瑚基因型的快速筛查,为气候适应型保护策略提供数据支持。在棘冠海星爆发监测中,基于Coralscapes预训练的模型将目标检测mAP@50提升至54.2%,显著优于传统方法。此外,分割结果还被集成至水下机器人视觉SLAM系统,通过剔除鱼类、潜水员等动态干扰物,提升了三维礁石重建的精度。
数据集最近研究
最新研究方向
随着全球气候变化对珊瑚礁生态系统的持续威胁,Coralscapes数据集的发布为珊瑚礁监测与保护研究开辟了新的技术路径。该数据集通过2075张专家标注的高分辨率图像和17.4万个分割掩码,首次实现了珊瑚礁场景的通用语义分割,填补了该领域高质量标注数据的空白。当前研究主要聚焦于三个前沿方向:基于迁移学习的跨区域珊瑚分类模型优化,利用该数据集预训练的模型在UCSD马赛克数据集上实现了稀疏标注条件下46.14%的mIoU提升;水下机器人视觉导航系统的开发,通过语义分割掩码有效消除了动态物体对三维重建的干扰;以及珊瑚白化早期预警系统的构建,在红海刺冠海星检测任务中使mAP@50指标提升14.9个百分点。这些突破性进展正推动计算机视觉技术在海洋生态保护中的标准化应用,特别是在2025年联合国海洋科学促进可持续发展十年计划框架下,该数据集为建立全球珊瑚礁健康评估体系提供了关键技术支持。
相关研究论文
  • 1
    The Coralscapes Dataset: Semantic Scene Understanding in Coral Reefs瑞士洛桑联邦理工学院环境计算科学与地球观测实验室,洛桑联邦理工学院生物地球化学实验室,英国埃克塞特大学生态与保护中心,澳大利亚昆士兰大学环境学院,瑞士洛桑大学高级表面分析中心 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录