PlantDoc

Name: PlantDoc
Creator: 印度理工学院甘地讷格尔分校
Published: 2019-11-23 14:45:03
License: 暂无描述

arXiv2019-11-23 更新2024-06-21 收录

下载链接：

https://github.com/pratikkayal/PlantDoc-Object-Detection-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

PlantDoc数据集是由印度理工学院甘地讷格尔分校创建的，旨在通过视觉方法早期检测植物疾病。该数据集包含2598张图像，涵盖13种植物和多达27种疾病类别，这些图像主要通过互联网搜集并经过约300小时的人工标注。数据集的创建过程涉及从互联网下载图像，并通过人工筛选和分类确保数据质量。PlantDoc数据集主要应用于农业领域，特别是在非控制环境下的植物疾病检测，旨在通过计算机视觉技术提高疾病识别的准确性和效率，从而减少农作物损失。

PlantDoc dataset was developed by the Indian Institute of Technology Gandhinagar, with the core goal of enabling early detection of plant diseases through visual approaches. This dataset consists of 2598 images covering 13 plant species and up to 27 disease categories. The images were primarily collected from the internet and underwent approximately 300 hours of manual annotation. The dataset creation process involves downloading images from the internet, followed by manual screening and classification to ensure data quality. The PlantDoc dataset is mainly applied in the agricultural sector, particularly for plant disease detection in uncontrolled environments, aiming to improve the accuracy and efficiency of disease recognition via computer vision technologies, thus reducing crop losses.

提供机构：

印度理工学院甘地讷格尔分校

创建时间：

2019-11-23

搜集汇总

数据集介绍

构建方式

在农业领域，植物病害的早期检测对于保障粮食安全至关重要，然而现有数据集多基于实验室环境构建，难以适应真实农田场景。PlantDoc数据集的构建过程体现了对现实复杂性的考量，研究团队从谷歌图片和Ecosia搜索引擎中，依据科学名称和通用名称收集了约20,900张原始图像。通过四名标注者依据植物病理学文献指南进行严格筛选，剔除了非叶片图像、实验室控制图像及重复样本，最终保留了2,598张高质量图像。这些图像覆盖13种植物物种和27个类别，包括健康与病害状态，并通过LabelImg工具对图像中的叶片进行了边界框标注，生成了包含9,216个裁剪叶片的数据子集，整个过程耗费约300人工小时，确保了数据的多样性和标注准确性。

使用方法

PlantDoc数据集主要用于训练和评估植物病害检测与分类模型，支持计算机视觉在农业智能领域的应用。研究人员可采用迁移学习策略，利用在ImageNet等大型数据集上预训练的模型，在PlantDoc上进行微调，以提升模型在真实环境中的性能。数据集提供了完整的边界框标注，适用于目标检测任务，如使用Faster R-CNN或MobileNet等架构进行叶片定位与病害识别。同时，裁剪后的叶片图像子集可用于图像分类任务，通过数据增强技术如旋转、缩放等提升模型鲁棒性。数据集的公开可用性促进了算法比较与复现，为开发移动端实时病害检测应用提供了关键资源，助力农业生产的智能化管理。

背景与挑战

背景概述

在农业领域，植物病害的早期检测对于保障粮食安全与减少经济损失具有至关重要的意义。印度理工学院甘地讷格尔分校的研究团队于2020年发布了PlantDoc数据集，旨在通过计算机视觉技术实现可扩展的植物病害视觉检测。该数据集涵盖了13种植物物种和17类病害，共包含2,598张图像，这些图像均采集自真实自然环境，而非实验室受控条件。PlantDoc的创建填补了现有数据集中缺乏非受控环境图像的空白，为深度学习模型在复杂背景下的病害识别提供了关键支持，推动了农业智能化检测技术的发展。

当前挑战

PlantDoc数据集致力于解决植物病害视觉检测中的核心挑战，即在自然环境下准确识别多种植物病害。这一领域问题的挑战在于图像背景复杂、光照条件多变以及病害形态多样，导致模型泛化能力不足。在数据集构建过程中，研究人员面临图像采集与标注的困难：从互联网爬取的图像需经过严格筛选以去除不相关或重复内容，同时标注工作需依赖有限的专业知识，耗时约300小时，且可能存在误标风险。此外，数据集中某些类别样本数量较少，限制了模型训练的充分性。

常用场景

经典使用场景

在农业智能化与计算机视觉交叉领域，PlantDoc数据集为植物病害视觉检测提供了关键支持。该数据集通过收集真实农田环境下的图像，涵盖了13种植物物种和27个病害类别，其经典使用场景在于训练和评估深度学习模型，以实现对自然光照、复杂背景及多叶片场景下的病害精准识别。研究人员常利用该数据集进行图像分类和对象检测任务，验证模型在非受控环境中的鲁棒性，从而推动农业病害自动检测技术的实用化进程。

解决学术问题

PlantDoc数据集有效解决了植物病害检测研究中因缺乏真实场景数据而导致的模型泛化能力不足问题。传统基于实验室受控图像的数据集难以应对田间复杂条件，而PlantDoc通过提供包含自然噪声和多样背景的图像，使模型能够学习更具代表性的视觉特征。这不仅提升了分类准确率高达31%，还促进了跨物种病害识别方法的创新，为计算机视觉在农业领域的可靠应用奠定了数据基础。

实际应用

在实际农业应用中，PlantDoc数据集支持开发移动端植物病害诊断工具，帮助农民通过智能手机快速识别作物健康状况。基于该数据集训练的轻量级模型，如MobileNet，可在低端设备上实时运行，实现病害早期预警与精准管理。这种技术降低了专业检测的门槛，有助于减少因病害导致的作物损失，提升农业生产效率，尤其在资源有限的地区具有显著的社会经济价值。

数据集最近研究