Northumberland Dolphin Dataset 2020 (NDD20)

Name: Northumberland Dolphin Dataset 2020 (NDD20)
Creator: 纽卡斯尔大学
Published: 2020-05-27 21:41:39
License: 暂无描述

arXiv2020-05-27 更新2024-06-21 收录

下载链接：

https://doi.org/10.25405/data.ncl.c.4982342

下载链接

链接失效反馈

官方服务：

资源简介：

Northumberland Dolphin Dataset 2020 (NDD20) 是由纽卡斯尔大学创建的一个大规模图像数据集，专为粗粒度和细粒度分类设计。该数据集包含2201张上水图像和2201张下水图像，总计4402张，用于海洋生物特别是海豚的研究。数据收集自英国诺森伯兰海岸附近的北海，通过手动收集完成。NDD20数据集的应用领域包括海洋生物保护和研究，特别是海豚的个体识别，旨在通过自动化技术减少研究人员的数据处理时间，提高野外工作效率。

The Northumberland Dolphin Dataset 2020 (NDD20) is a large-scale image dataset developed by Newcastle University, specifically designed for coarse-grained and fine-grained classification tasks. It contains 2201 above-water images and 2201 below-water images, totaling 4402 images in all, and is targeted at research on marine organisms, especially dolphins. The data was manually collected from the North Sea near the coast of Northumberland, UK. Application scenarios of the NDD20 dataset cover marine organism conservation and research, particularly individual dolphin identification, with the goal of reducing researchers' data processing time and improving field work efficiency via automated technologies.

提供机构：

纽卡斯尔大学

创建时间：

2020-05-27

搜集汇总

数据集介绍

构建方式

在海洋生物保护领域，数据采集常受制于严苛的自然环境与物种行为的不确定性。NDD20数据集的构建依托于跨学科团队在北海诺森伯兰海岸线的系统性野外作业，通过两种互补方式收集图像资料。水上部分采用数码单反相机在小型充气船上拍摄，严格遵循海况良好（蒲福风级小于四级）的条件，初期按预设样线航行，后期结合志愿者岸基观测进行机会性调查。水下数据则源自2011至2018年间对Farne Deeps海沟的36次考察，通过潜水员使用GoPro摄像机录制高清视频并截取静态帧。所有原始图像均经过伪匿名化处理，移除EXIF信息并随机分配个体编号，最终以VIA 2.0.8标注格式提供包含坐标掩码与多级属性的JSON文件，形成兼具生态真实性与标注层次性的结构化数据集。

使用方法

该数据集支持计算机视觉与保护生态学的交叉研究，其多层次标注结构允许研究者按需拆解任务难度。在基础应用层面，可利用掩码标签训练实例分割模型（如Mask R-CNN），验证算法在复杂海洋环境中的鲁棒性；物种分类任务则适用于细粒度识别研究，通过捕捉两类海豚间微妙的形态差异提升模型判别力。对于前沿探索，个体ID标签为小样本学习与度量学习提供了理想测试平台，研究者可开发针对背鳍纹理或体表斑纹的特征提取方法，模拟传统照片识别流程。数据集附带的离焦标注与不平衡类别分布，进一步鼓励算法应对真实场景中的长尾识别问题。基准实验已证明其在水上分割任务可达mAP@0.5=0.96的性能，为后续研究确立了可参照的起点。

背景与挑战

背景概述

随着计算机视觉技术在生态保护领域的快速渗透，开发适用于极端环境条件的现场部署系统成为研究热点，然而开源数据集的稀缺制约了该领域的进展。在此背景下，纽卡斯尔大学的研究团队于2020年发布了Northumberland Dolphin Dataset 2020 (NDD20)，旨在通过大规模图像数据推动海豚个体精细识别与实例分割研究。该数据集聚焦于解决鲸类保护中的关键问题——自动化照片识别，传统人工识别耗时数月，而NDD20通过提供涵盖水上水下双视角、标注至个体层级的多层次注释，首次为跨系统性能评估建立了开放基准，显著提升了海洋生物监测效率。

当前挑战

NDD20所应对的核心领域挑战在于实现海豚个体的精细粒度识别，这要求模型能够区分同类物种间的细微差异，如背鳍形态、体表疤痕或色素沉着，同时需克服自然环境中光照、水体浑浊度及拍摄角度多变等干扰因素。在数据集构建过程中，研究人员面临数据采集的艰巨性：水上图像易受波浪飞溅、运动模糊及局部遮挡影响，水下图像则因藻类繁殖、光线折射导致特征模糊或伪影生成。此外，数据标注需依赖领域专家手动识别，且个体样本分布不均衡，形成了真实场景下的少样本学习难题，进一步增加了模型训练的复杂性。

常用场景

经典使用场景

在海洋生态保护领域，计算机视觉技术的应用正逐步深化，而NDD20数据集为这一进程提供了关键支撑。该数据集最经典的使用场景在于支持海豚个体的精细识别与分类研究，通过提供大量水上和水下图像，并结合实例分割与多层级标注，使研究者能够开发自动化照片识别系统，以替代传统耗时数月的人工识别流程。数据集的设计充分考虑了真实环境中的挑战，如水体模糊、光照变化及个体姿态差异，为算法鲁棒性评估提供了理想平台。

解决学术问题

NDD20数据集有效解决了海洋生物保护研究中长期存在的若干学术难题。首先，它填补了开放源代码数据在海洋哺乳动物精细分类领域的空白，使得个体级别的海豚识别成为可能，这对于种群动态评估和健康监测至关重要。其次，数据集通过提供物种与个体双重标注，支持了少样本学习与细粒度分类方法的发展，推动了计算机视觉在非人脸识别场景下的理论探索。此外，其标准化标注格式首次实现了不同自动化照片识别系统之间的公平性能比较，为领域内基准测试建立了统一框架。

实际应用

NDD20数据集的实际应用直接服务于海洋保护实践与生态监测体系。在野外调查中，基于该数据集训练的模型可集成到船载或水下观测系统中，实现海豚个体的实时自动识别，大幅提升数据收集效率并减少研究人员的人工负担。此外，该技术可扩展至鲸类保护项目，用于追踪特定个体的迁徙模式、社会行为及种群变化，为制定科学的保护策略提供数据支持。数据集的水下图像部分尤其有助于研究海豚体表标记与疾病特征，深化对海洋哺乳动物健康状态的理解。

数据集最近研究