five

PlantDoc

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/pratikkayal/plantdoc-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为PlantDoc,是一个内容全面的数据库,涵盖了多种植物种类及其疾病,其详尽的标注为模型开发和测试提供了便利。此外,该数据集对各种植物种类和病症都有详细的注释。规模上,它包含了700张精心挑选的图像,用于训练和测试。该数据集的任务是番茄叶片疾病检测。

The dataset named PlantDoc is a comprehensive database covering diverse plant species and their associated diseases. Its detailed annotations facilitate model development and testing. Additionally, it provides detailed notes for various plant types and disease conditions. In terms of scale, it contains 700 carefully curated images for training and testing. The core task of this dataset is tomato leaf disease detection.
提供机构:
Publicly available
搜集汇总
数据集介绍
main_image_url
构建方式
在全球粮食安全面临严峻挑战的背景下,植物病害的早期检测成为农业领域的核心痛点。PlantDoc数据集应运而生,旨在弥合实验室控制环境与真实农田场景之间的鸿沟。该数据集通过从Google Images和Ecosia等互联网搜索引擎下载图像构建,共收集约20,900张原始图片,覆盖13种植物物种和27个类别(包含17种病害与10种健康状态)。四名标注者依据APSNet提供的同行评审文献指南,对图像进行筛选与分类,重点考量病害部位的颜色、面积、密度及物种形态等特征,并剔除重复、非叶片或实验室控制的图像。最终保留2,598张高质量图像,每张均经过双重验证以减少标注误差。为支持目标检测任务,团队使用LabelImg工具为所有图像中的叶片生成边界框,确保每片叶子完整包含于框内且面积不小于图像大小的1/8,并将坐标与类别信息存储于对应XML文件中。此外,通过裁剪边界框区域衍生出Cropped-PlantDoc子集,包含9,216张仅含叶片的图像,虽分辨率较低且背景多样,但更贴近真实场景的复杂性。
特点
PlantDoc数据集的核心特点在于其对真实世界复杂性的高度还原,与现有实验室数据集(如PlantVillage)形成鲜明对比。数据集中图像采集自自然光照和杂乱背景条件,包含多叶片共存、低分辨率及不同病害混合等真实场景,突破了传统数据集在受控环境下的局限性。其类别覆盖13种常见作物(如苹果、玉米、番茄等)及17种病害(如黑腐病、早疫病、白粉病等),每类图像数量经过均衡处理(≥50张),确保模型训练的稳定性。数据集还提供原始图像与裁剪叶片两种形态,前者保留完整场景信息,后者聚焦叶片局部特征,为分类与检测任务提供灵活选择。此外,标注过程采用人工双重审核机制,并附有APSNet文献参考,虽受限于领域专业知识存在少量潜在误标,但整体标注质量可靠。该数据集还公开了训练-测试划分(2,360张训练与238张测试),便于后续研究的公平对比与复现。
使用方法
PlantDoc数据集适用于植物病害的视觉检测任务,主要支持图像分类与目标检测两大研究方向。在分类任务中,研究者可直接使用原始图像或Cropped-PlantDoc子集,通过微调VGG16、InceptionV3等预训练模型(基于ImageNet或PlantVillage权重)进行病害类别识别,实验表明在PlantDoc上微调可将分类误差降低31%。对于目标检测,数据集提供完整的边界框标注,可训练Faster R-CNN(如结合InceptionResNetV2骨干网络)或MobileNet等轻量级模型,实现叶片定位与病害分类的联合预测,其中Faster R-CNN在50% IoU下的mAP达到38.9。数据集还支持迁移学习策略,通过先在大规模通用数据集(如COCO)上预训练,再在PlantDoc上微调,以缓解真实场景中标注数据不足的问题。此外,研究者可基于MobileNet构建移动端应用,利用其高效性在智能手机上实时预测边界框与类别,为农田现场的快速诊断提供可行方案。数据集代码与划分已开源,便于社区复现与扩展。
背景与挑战
背景概述
植物病害对全球粮食安全构成严峻威胁,据印度农业研究委员会统计,该国每年因病虫害损失超过35%的作物产量。传统的病害检测依赖实验室基础设施与专业农艺知识,难以在资源匮乏的农村地区推广。计算机视觉技术的飞速发展为规模化、低成本的植物病害早期识别开辟了新路径,然而现有公开数据集如PlantVillage多采集于受控实验室环境,其背景单一、光照均匀,与实际农田中叶片重叠、背景杂乱、光照多变的自然场景存在显著差异。针对这一鸿沟,印度理工学院甘地纳格尔分校的Davinder Singh、Naman Jain等研究者于2019年创建了PlantDoc数据集,该数据集包含2598张图像,覆盖13种植物物种与27个类别(其中17种病害、10种健康状态),所有图像均来自互联网自然场景,并经过约300人时的人工标注。PlantDoc的发布填补了真实环境下植物病害视觉检测数据的空白,为从实验室模型向田间应用过渡提供了关键基准。
当前挑战
PlantDoc数据集面临的核心挑战源于真实场景的复杂性与数据构建的局限性。其一,领域问题层面,自然条件下叶片图像常包含多叶重叠、复杂背景噪声、光照不均及低分辨率等问题,使得传统基于受控数据集训练的模型(如PlantVillage)在PlantDoc上的分类准确率骤降,实验表明仅凭ImageNet或PlantVillage预训练模型直接测试,准确率不足16%。其二,构建过程中,互联网爬取的图像存在标注歧义,例如番茄细菌性斑病与壳针孢叶斑病在视觉上高度相似,仅凭肉眼难以准确区分,而缺乏专业植物病理学家的深度参与可能引入标签噪声。此外,部分类别样本量不足(少于50张的类别已被剔除),导致类别间分布不均,限制了模型对罕见病害的泛化能力。最后,叶片检测任务中,目标边界框需精确覆盖叶片区域,但自然图像中叶片尺寸不一、姿态各异,标注时要求框面积不小于图像面积的1/8,这一约束虽保证了质量,却增加了标注难度与一致性维护的挑战。
常用场景
经典使用场景
在植物病理学与计算机视觉的交叉领域中,PlantDoc数据集被广泛用于构建和评估面向自然场景的植物病害检测与分类模型。不同于传统实验室环境下采集的PlantVillage数据集,PlantDoc聚焦于田间复杂背景下的真实叶片图像,涵盖13种植物物种、27个类别(包括17种病害与10种健康状态),共计2,598张图像。该数据集的核心应用场景在于验证深度学习模型在非受控环境中的泛化能力,例如利用VGG16、InceptionV3和InceptionResNetV2等架构进行图像分类,或借助Faster R-CNN与MobileNet实现叶片目标检测。通过对比实验,PlantDoc揭示了在实验室数据上训练的模型在实际场景中性能显著下降的现象,从而为开发鲁棒性更强的植物病害视觉诊断系统提供了关键基准。
衍生相关工作
PlantDoc数据集的发布催生了一系列衍生研究工作,主要集中在提升非受控场景下植物病害检测的性能与可解释性。一方面,后续工作探索了更先进的目标检测架构,如YOLO系列与EfficientDet,在PlantDoc基础上进行微调以优化小目标叶片病害的定位精度;另一方面,研究者引入图像分割技术(如U-Net)先行提取叶片区域,再行分类,以缓解背景噪声干扰。此外,PlantDoc常与PlantVillage联合使用,作为跨领域迁移学习的基准数据集,用于评估领域自适应算法(如对抗训练与风格迁移)在弥合实验室-田间差距上的效果。论文中展示的显著图与梯度激活图分析,也启发了后续关于模型可解释性的研究,力图揭示网络关注的病害视觉特征(如病斑纹理与叶片轮廓),从而增强诊断结果的可靠性。这些衍生工作共同推动了农业视觉数据集从单一受控场景向多源真实场景的演进。
数据集最近研究
最新研究方向
在精准农业与计算机视觉交叉领域,PlantDoc数据集的出现填补了真实田间环境下植物病害检测数据匮乏的空白。当前前沿研究方向聚焦于利用该数据集训练轻量化深度学习模型,以在移动端实现实时的叶片病害分类与目标检测。鉴于全球粮食安全面临病虫害爆发频率上升的严峻挑战,PlantDoc通过包含非受控背景、多物种及多病害类别的图像,显著提升了模型在复杂自然场景下的泛化能力。该数据集不仅推动了从实验室控制条件向实地应用的范式转变,还为构建可扩展的低成本病害预警系统提供了关键支撑,对减少作物损失、保障农业可持续发展具有重要战略意义。
相关研究论文
  • 1
    PlantDoc: A Dataset for Visual Plant Disease Detection印度理工学院甘地讷格尔分校 · 2019年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作