I-Nema

arXiv2021-03-15 更新2024-06-21 收录

下载链接：

https://github.com/xuequanlu/I-Nema

下载链接

链接失效反馈

官方服务：

资源简介：

I-Nema是一个专为线虫识别设计的生物图像数据集，由澳大利亚的迪肯大学和中国的南京农业大学合作创建。该数据集包含2769张图像，涵盖了19种不同的线虫物种，其中17种来自自然环境，2种来自实验室培养。数据集的创建过程涉及从广泛的自然环境中收集土壤样本，提取线虫，并通过显微镜系统进行手动识别和图像捕捉。I-Nema数据集旨在解决线虫物种识别的问题，特别是在害虫控制、土壤生态、生物地理学和气候变化适应等领域中的应用。

I-Nema is a biological image dataset specifically developed for nematode identification, jointly established by Deakin University of Australia and Nanjing Agricultural University of China. This dataset consists of 2769 images covering 19 distinct nematode species, with 17 species obtained from natural environments and 2 species sourced from laboratory cultures. The development of the I-Nema dataset entailed collecting soil samples across a wide range of natural habitats, extracting nematodes therefrom, and performing manual identification and image acquisition using microscopic systems. The I-Nema dataset is intended to address the challenges associated with nematode species identification, especially for applications in pest control, soil ecology, biogeography, and climate change adaptation.

提供机构：

迪肯大学, 澳大利亚南京农业大学, 中国

创建时间：

2021-03-15

搜集汇总

数据集介绍

构建方式

在生物信息学领域，构建高质量的图像数据集对于推动线虫物种识别研究至关重要。I-Nema数据集的构建遵循一套严谨的流程：首先从温带阔叶林、混合林、农田及苔原等多种自然生态系统中广泛采集土壤样本，并辅以两种实验室培养的物种；随后通过贝尔曼漏斗法提取线虫，并利用甲醛固定、甘油置换制备永久玻片标本。在图像采集前，由分类学专家依据形态特征和测量数据对标本进行人工鉴定，确保物种多样性。最终，使用配备相机的奥林巴斯微分干涉显微镜系统，针对每个选定标本的头部、尾部及身体中部区域，在不同焦平面上拍摄3至10张图像，共获得涵盖19个物种的2769张图像，并依据鉴定结果直接标注物种标签。

特点

该数据集在生物图像资源中展现出显著特色。其核心优势在于物种来源的多样性，不仅包含两种实验室培养的线虫，更涵盖了从自然环境中分离的17个物种，代表了不同的进化谱系和取食策略，如植物寄生、真菌取食等，这在现有公开数据集中尚属首次。数据规模上，图像数量达2769张，但各类别样本量分布不均，部分物种图像少于54张，这真实反映了自然环境样本采集的挑战性，也为研究非平衡数据学习提供了场景。此外，所有图像均经过基于Canny边缘检测的裁剪和灰度化预处理，以统一格式并减少背景干扰，但保留了线虫的完整形态，为算法提供了既标准又具真实复杂性的输入。

使用方法

该数据集为计算机视觉与生物学的交叉研究提供了标准基准。研究者可将其划分为训练集与测试集，建议比例约为4:1，以进行有监督的物种分类模型开发与评估。为应对数据不平衡和提升模型泛化能力，在训练过程中可采用在线随机翻转（水平和垂直）与高斯模糊等数据增强策略。输入图像需统一缩放至224×224像素以适应主流卷积神经网络。数据集支持两种模型训练范式：一是利用在ImageNet上预训练的模型（如AlexNet、VGG、ResNet系列）进行微调，仅调整最终输出层至19类；二是从头开始训练模型，后者更具挑战性，能有效检验模型从零学习线虫细微特征的能力。性能评估推荐使用平均类别精度和总体精度两项指标，以全面衡量模型在不同物种上的识别效果。

背景与挑战

背景概述

在生物信息学与计算机视觉交叉领域，线虫识别作为一项关键任务，对农业害虫防治、土壤生态评估及生物地理学研究具有深远意义。I-Nema数据集由澳大利亚迪肯大学与中国南京农业大学的研究团队于2021年联合创建，旨在填补公开线虫图像数据的空白。该数据集涵盖19种线虫物种，包含2769张图像，首次整合了自然环境采集与实验室培养的样本，突破了以往研究仅局限于少数实验室物种的局限。其核心研究问题在于通过深度学习技术实现线虫物种的自动化识别，为生态监测与生物多样性保护提供高效工具，推动了计算生物学在微观生物识别中的应用进展。

当前挑战

I-Nema数据集面临的挑战主要体现在两方面：在领域问题层面，线虫识别受限于物种内表型可塑性高、诊断特征模糊及幼体频繁出现等生物学特性，导致传统图像分类方法难以捕捉细微形态差异；同时，数据集中样本分布不均衡，部分物种图像数量稀少，加剧了模型训练的难度。在构建过程中，挑战源于自然环境样本的采集与处理：需在多种生态系统中进行耗时耗力的土壤采样，并通过人工显微鉴定筛选目标物种，这一过程依赖专业分类学知识，且许多自然物种无法实验室培养，使得数据获取成本高昂。此外，图像预处理需应对背景噪声、虫体姿态多变等问题，进一步增加了数据集构建的复杂性。

常用场景

经典使用场景

在土壤生态学和农业病虫害防治领域，线虫物种的精准识别是评估土壤健康与实施靶向治理的关键前提。I-Nema数据集作为首个涵盖自然环境与实验室培养的多样化线虫物种的公开图像数据集，其最经典的应用场景在于为基于深度学习的线虫物种自动识别研究提供标准化基准。研究者利用该数据集训练卷积神经网络模型，旨在从显微图像中自动鉴别不同种类的线虫，从而克服传统人工分类耗时费力且依赖专家经验的瓶颈。

衍生相关工作

I-Nema数据集的发布催生并衔接了多项相关经典研究工作。其本身建立在对早期线虫检测、分割及分类研究的综述基础之上，这些工作多聚焦于图像栈分析或模式生物秀丽隐杆线虫。I-Nema则扩展了物种多样性，并公开了数据与基准。该数据集预期将激励后续研究从多个维度深化：一是设计更适应生物形态特征的神经网络架构以提升识别精度；二是探索基于二维图像的三维线虫建模与重建技术；三是发展应对数据不平衡与小样本学习的算法，以处理数据集中样本量差异显著的物种分类挑战。

数据集最近研究