five

DAPlankton

收藏
arXiv2024-02-08 更新2024-06-21 收录
下载链接:
https://doi.org/10.23729/32583bd0-38cd-4532-a8d6-fc9dc5967dce
下载链接
链接失效反馈
官方服务:
资源简介:
DAPlankton是一个用于多仪器浮游生物识别的精细领域适应基准数据集,由LUT大学计算机视觉与模式识别实验室创建。该数据集包含超过11万张通过不同仪器获取的浮游植物图像,分为DAPlanktonLAB和DAPlanktonSEA两个子集,分别代表实验室培养和自然环境中的浮游生物。数据集创建过程中,通过专家验证确保图像分类的准确性,旨在解决不同仪器间数据集的领域适应问题,为环境研究和海洋生物多样性分析提供支持。

DAPlankton is a fine-grained domain adaptation benchmark dataset for multi-instrument plankton recognition, developed by the Computer Vision and Pattern Recognition Laboratory of LUT University. This dataset contains over 110,000 phytoplankton images acquired by various instruments, and is divided into two subsets: DAPlanktonLAB and DAPlanktonSEA, which represent plankton in laboratory cultures and natural environments respectively. Expert validation was conducted during the dataset construction to ensure the accuracy of image classification, which aims to address the domain adaptation problem across datasets from different instruments and provide support for environmental research and marine biodiversity analysis.
提供机构:
计算机视觉与模式识别实验室, LUT大学, 芬兰
创建时间:
2024-02-08
搜集汇总
数据集介绍
构建方式
DAPlankton数据集是通过使用不同成像仪器捕获的浮游生物图像构建而成的。该数据集包括两个子集:DAPlanktonLAB和DAPlanktonSEA。DAPlanktonLAB包含来自单种浮游生物培养物的图像,这些培养物使用三种不同的成像仪器进行分析:Imaging FlowCytobot (IFCB)、CytoSense (CS)和FlowCam (FC)。每个图像都经过专家验证,以确保没有不同培养物之间的交叉污染,从而确保了数据集的平衡性和标签的准确性。DAPlanktonSEA包含从波罗的海采集的水样中捕获的图像,使用IFCB和CS两种成像仪器。每个图像都由专家手动标记,提供了具有挑战性的真实世界数据,具有较大的类内方差和类不平衡。
特点
DAPlankton数据集的特点在于其自然的多域性和细粒度识别任务。数据集的细粒度性质使得识别问题更具挑战性,而类内方差和类不平衡则增加了识别的难度。DAPlanktonLAB子集提供了平衡的数据集,而DAPlanktonSEA子集则提供了更具挑战性的真实世界数据。此外,该数据集还提供了对不同成像仪器之间域偏移的适应,使其成为研究和评估域适应方法的有价值资源。
使用方法
使用DAPlankton数据集的方法包括以下步骤:首先,将每个子集-域组合分为训练集和测试集,其中训练集占80%,测试集占20%。其次,考虑无监督域适应,即在训练阶段域适应模型无法访问目标域的任何标签。然后,使用源域中所有带有真实标签的数据对评估模型进行训练,并使用目标域的训练子集(没有真实标签)进行训练。最后,在目标域的测试子集上进行评估,使用分类准确度作为评估指标。这种方法可以有效地评估和比较不同的域适应方法,并推动细粒度域适应方法的发展。
背景与挑战
背景概述
在海洋生态系统中,浮游生物是基础的生产者,其种类和数量的变化对海洋食物网和二氧化碳交换等环境方面有着重要的影响。浮游生物识别技术为研究浮游生物种群和海洋生态系统提供了新的可能性。然而,由于不同的成像仪器的使用和浮游生物种类组成的局部差异,导致浮游生物图像数据集之间存在较大的领域差异,限制了通用浮游生物识别方法的发展。为了解决这个问题,本文提出了一种名为DAPlankton的新的领域自适应数据集,该数据集包含使用不同仪器捕获的浮游生物图像,旨在促进和评估领域自适应方法。该数据集分为两个子集:DAPlanktonLAB和DAPlanktonSEA。DAPlanktonLAB包含来自多种单一种类浮游生物培养物的图像,而DAPlanktonSEA包含从波罗的海收集的自然水样图像。这两个子集分别代表了实验室环境和真实世界环境中的浮游生物图像数据,为领域自适应研究提供了挑战和现实意义。
当前挑战
DAPlankton数据集面临的挑战主要来自于浮游生物识别任务的细粒度特性和现实世界数据集中的高度不平衡类别。细粒度识别任务意味着类别之间的差异非常小,而领域之间的差异很大,这要求领域自适应方法能够同时解决不同成像仪器之间的领域偏移、较大的类内变化和较小的类间变化。此外,DAPlanktonSEA子集中存在的类不平衡问题也增加了识别任务的难度。因此,开发能够有效处理这些挑战的新方法对于浮游生物识别和领域自适应领域来说至关重要。
常用场景
经典使用场景
DAPlankton数据集主要用于解决多仪器浮游生物识别中的领域适应问题。该数据集包含来自不同仪器的浮游生物图像,旨在帮助研究人员开发能够适应不同成像仪器的浮游生物识别模型。其中,DAPlanktonLAB子集提供了培养浮游生物的平衡数据集,而DAPlanktonSEA子集则提供了来自波罗的海的自然水样图像,具有较大的类内差异和类不平衡。
衍生相关工作
基于DAPlankton数据集,研究人员可以进一步探索更先进的领域适应方法,以解决浮游生物识别中的细粒度识别问题。此外,DAPlankton数据集还可以用于开发更准确的浮游生物识别模型,并应用于其他相关领域,如医疗图像识别、工业缺陷检测等。
数据集最近研究
最新研究方向
DAPlankton数据集的发布为多仪器浮游生物识别提供了新的研究平台,其挑战性的细粒度识别任务和高类不平衡特性为领域自适应方法的研究提出了新的要求。该数据集的构建旨在解决不同成像仪器之间存在的领域偏移问题,为浮游生物识别提供了一种新的研究方向。未来研究可以围绕如何同时解决不同成像仪器之间的领域偏移、大的类内差异和小的类间差异展开,以提升模型在多领域环境下的泛化能力。此外,DAPlankton数据集的发布也促进了浮游生物识别与领域自适应相结合的研究,有望为海洋生态系统的监测和保护提供新的技术支持。
相关研究论文
  • 1
    DAPlankton: Benchmark Dataset for Multi-instrument Plankton Recognition via Fine-grained Domain Adaptation计算机视觉与模式识别实验室, LUT大学, 芬兰 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作