WHOI-Plankton
收藏arXiv2015-10-03 更新2024-06-21 收录
下载链接:
https://github.com/hsosik/WHOI-Plankton
下载链接
链接失效反馈官方服务:
资源简介:
WHOI-Plankton是由伍兹霍尔海洋研究所创建的大规模细粒度视觉识别数据集,用于浮游生物分类。该数据集包含超过340万张专家标注的图像,涵盖70个类别。数据集通过Imaging FlowCytobot(IFCB)系统收集,该系统自2006年起持续采集浮游生物图像。数据集的创建旨在通过自动化分类方法解决手动分类大型图像集的不切实际性,并提高分类准确性。该数据集广泛应用于海洋生态学研究,特别是在浮游生物的分类和生态系统动态分析中。
WHOI-Plankton is a large-scale fine-grained visual recognition dataset created by the Woods Hole Oceanographic Institution for plankton classification. This dataset contains over 3.4 million expert-annotated images spanning 70 categories. It was collected via the Imaging FlowCytobot (IFCB) system, which has been continuously acquiring plankton images since 2006. The dataset was developed to address the impracticality of manually classifying large image datasets through automated classification methods, while also improving classification accuracy. It is widely used in marine ecological research, particularly in plankton classification and ecosystem dynamics analysis.
提供机构:
伍兹霍尔海洋研究所
创建时间:
2015-10-03
搜集汇总
数据集介绍

构建方式
在海洋生态系统中,浮游生物扮演着至关重要的角色。为了研究这些生物,WHOI-Plankton数据集应运而生。该数据集通过伍兹霍尔海洋研究所的成像流式细胞仪(IFCB)持续采集图像,并经过八年时间积累,形成了包含超过340万张由专家标注的图像,涵盖了70个分类。数据集的构建基于IFCB自动抽取海水样本,并通过激光束激发叶绿素荧光来捕获颗粒图像,进而由领域专家进行随机标注。
特点
WHOI-Plankton数据集的特点在于其大规模、细粒度的视觉识别,以及其独特的构建过程。数据集不仅规模庞大,而且每个分类的样本数量代表该分类随时间的自然变化。此外,数据集中的“混合”分类包含了两百万个未能明确分类的颗粒图像,为分类算法提出了额外的挑战。数据集的构建充分考虑了浮游生物分类的复杂性和变化性,为相关研究提供了丰富的资源。
使用方法
使用WHOI-Plankton数据集时,研究人员可根据需要选择2014年之前的20%随机样本作为训练数据,以模拟浮游生物分类随时间变化的评估问题。数据集提供了三种基准分类方法:基于手工特征的选择森林分类器、仅基于浮游生物数据的卷积神经网络(CNNP),以及基于ImageNet预训练网络的微调CNN(CNNFT)。这些方法在2014年的每日数据上进行了评估,使用F1分数作为性能指标,为研究人员提供了算法性能的比较基础。
背景与挑战
背景概述
浮游生物是海洋生态系统中的基础性生物,它们构成了食物链的基础,连接着大气与深海,影响着全球尺度的生物地球化学循环。随着成像技术的进步,科学家们开始利用这些技术来研究浮游生物。在此背景下,WHOI-Plankton数据集应运而生,该数据集由伍兹霍尔海洋研究所的海洋生物学家与加州大学圣地亚哥分校的海洋学家共同创建。自2006年以来,该数据集通过 Imaging FlowCytobot (IFCB) 在马萨诸塞州葡萄园海岸观测站 (MVCO) 收集了超过7000万份样本,精选出超过340万份专家标注的图像,涵盖70个分类。该数据集为细粒度视觉识别提供了一个大规模的基准,对浮游生物分类研究产生了重要影响。
当前挑战
WHOI-Plankton数据集在构建和应用过程中面临的挑战主要包括:首先,由于数据量庞大,手动分类变得不切实际;其次,标注任务本身具有难度,因为相关分类的空间广阔,类内差异大,类间相似度高;此外,尽管存在自动化分类方法,但其准确性通常低于人类专家。研究者在数据集中选择了三种分类方法进行对比,但发现即使是表现最好的方法,对罕见类别的分离效果也有限,这提示未来的研究需要在数据增强和新型卷积神经网络架构开发方面进行更多的探索。
常用场景
经典使用场景
在海洋生态系统中,浮游生物扮演着至关重要的角色。WHOI-Plankton数据集作为大规模精细粒度视觉识别基准数据集,其经典使用场景主要集中于对浮游生物进行分类研究。该数据集包含了超过340万张由专家标注的图像,跨越70个分类,为研究人员提供了一个全面的浮游生物识别与分类的资源库,助力于推动自动化分类技术的发展。
实际应用
在实际应用中,WHOI-Plankton数据集的应用场景广泛,不仅限于学术研究。例如,在海洋环境监测、渔业资源管理、水质评估等领域,该数据集的运用可以帮助相关部门快速准确地识别浮游生物种类与数量,从而有效地进行海洋资源的保护与管理。
衍生相关工作
基于WHOI-Plankton数据集,已经衍生出了一系列相关的研究工作。这些工作不仅包括对现有分类方法的改进,如随机森林、卷积神经网络等,还涉及对浮游生物生态学特性的深入分析,以及开发新的深度学习架构来提高分类性能,进一步推动了海洋生态学领域的研究进展。
以上内容由遇见数据集搜集并总结生成



