five

SYKE-plankton_ZooScan_2024,SYKE-plankton_IFCB_2022

收藏
arXiv2025-03-14 更新2025-03-18 收录
下载链接:
http://arxiv.org/abs/2503.11318v1
下载链接
链接失效反馈
官方服务:
资源简介:
本文介绍了两个 plankton 图像数据集,分别为SYKE-plankton_ZooScan_2024和SYKE-plankton_IFCB_2022,由芬兰环境研究所创建。这两个数据集为开放集 plankton 识别任务提供了多样化和具有挑战性的数据,包含已知和未知的 plankton 类别,旨在帮助研究人员解决开放集识别问题,提高 plankton 自动识别模型的准确性。

This paper introduces two plankton image datasets, namely SYKE-plankton_ZooScan_2024 and SYKE-plankton_IFCB_2022, which were developed by the Finnish Environment Institute. These two datasets provide diverse and challenging data for open-set plankton recognition tasks, covering both known and unknown plankton categories. They are designed to help researchers address open-set recognition challenges and improve the accuracy of automated plankton recognition models.
提供机构:
拉彭兰塔-拉赫蒂理工大学计算机视觉与模式识别实验室,芬兰;芬兰环境研究所,赫尔辛基,芬兰
创建时间:
2025-03-14
搜集汇总
数据集介绍
main_image_url
构建方式
SYKE-plankton_ZooScan_2024和SYKE-plankton_IFCB_2022数据集的构建基于自动浮游生物成像设备,分别采集了波罗的海的浮游动物和浮游植物图像。浮游动物数据集包含24,123张单标本图像,分为20个类别,浮游植物数据集包含63,074张单标本图像,分为50个类别。数据采集过程中,设备不仅捕获了浮游生物,还捕获了非浮游生物颗粒,如气泡和鱼卵。为了减少类别不平衡的影响,训练数据通过随机子集和图像增强技术进行了处理,所有图像均调整为224×224像素的标准尺寸。
特点
该数据集的特点在于其开放集识别(OSR)的挑战性,即测试集中可能包含训练集中未出现的类别。浮游生物图像具有细粒度分类的特点,不同物种之间的视觉差异微小,且图像质量参差不齐。此外,数据集还包含大量非浮游生物颗粒,增加了识别的复杂性。这些特点使得该数据集成为开发和测试开放集识别方法的理想平台。
使用方法
该数据集的使用方法主要包括训练和测试开放集识别模型。研究人员可以使用深度学习模型(如卷积神经网络和视觉Transformer)对浮游生物图像进行分类。为了应对开放集识别的挑战,可以采用OpenMax、ArcFace和Class Anchored Clustering(CAC)等方法。这些方法通过调整输出概率或利用度量学习来识别未知类别。实验过程中,可以通过设置固定阈值或类别特定阈值来优化模型的开放集识别性能。
背景与挑战
背景概述
SYKE-plankton_ZooScan_2024和SYKE-plankton_IFCB_2022数据集由芬兰环境研究所和拉彭兰塔-拉赫蒂理工大学的研究团队于2022年和2024年分别发布,旨在推动浮游生物图像识别领域的研究。浮游生物作为海洋生态系统中的关键组成部分,其种群变化对海洋健康和气候变化具有重要指示作用。随着自动成像设备的普及,大规模浮游生物图像数据的获取成为可能,但传统分类方法难以应对开放集识别(OSR)问题,即模型需处理训练集中未出现的类别。该数据集通过提供多样化的浮游生物图像,为开发开放集识别算法提供了重要资源,推动了浮游生物监测技术的进步。
当前挑战
该数据集面临的主要挑战包括:1) 开放集识别问题,即模型需在测试集中识别未知类别的浮游生物和非浮游生物颗粒,这对模型的泛化能力提出了极高要求;2) 浮游生物物种间的细微差异使得分类任务具有细粒度特性,增加了识别难度;3) 数据采集过程中,成像设备可能捕捉到大量非目标颗粒,导致数据噪声和类别不平衡问题;4) 构建数据集时,浮游生物的地理分布差异使得类组成不一致,进一步增加了数据标注和模型训练的复杂性。这些挑战使得浮游生物识别成为开放集识别方法开发的理想测试平台。
常用场景
经典使用场景
SYKE-plankton_ZooScan_2024和SYKE-plankton_IFCB_2022数据集在浮游生物识别领域具有广泛的应用,尤其是在开放集识别(OSR)任务中。这些数据集通过提供大规模的浮游生物图像,支持深度学习模型在物种分类中的训练与测试。其经典使用场景包括利用卷积神经网络(CNN)和视觉变换器(ViT)等先进技术,对浮游生物图像进行细粒度分类,同时处理未知类别的识别问题。
解决学术问题
该数据集有效解决了浮游生物识别中的开放集识别问题。传统分类模型通常假设测试集与训练集的类别一致,但在实际应用中,模型常会遇到未知类别的样本。SYKE-plankton数据集通过引入开放集识别方法,如OpenMax、ArcFace和类锚定聚类(CAC),显著提升了模型在未知类别样本上的识别能力。这不仅推动了浮游生物分类技术的发展,还为开放集识别领域的理论研究提供了重要的实验平台。
衍生相关工作
SYKE-plankton数据集的发布催生了一系列相关研究工作。例如,基于该数据集的研究提出了多种开放集识别方法,如OpenMax和ArcFace的改进版本。此外,类锚定聚类(CAC)方法首次被应用于浮游生物识别,并取得了显著的性能提升。这些工作不仅推动了浮游生物识别技术的发展,还为开放集识别领域的算法创新提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作