PlantWild

Name: PlantWild
Creator: 昆士兰大学
Published: 2024-08-06 19:49:13
License: 暂无描述

arXiv2024-08-06 更新2024-08-08 收录

下载链接：

https://tqwei05.github.io/PlantWild

下载链接

链接失效反馈

官方服务：

资源简介：

PlantWild是由昆士兰大学创建的大规模多模态植物疾病识别数据集，包含18,542张野生环境下的植物图像和89种疾病类型。数据集的图像来自多样化的互联网资源，每种疾病类别配有详细的文本描述，这些描述由GPT-3.5生成，旨在提供丰富的文本信息以辅助疾病识别。数据集的创建过程包括图像的收集、筛选和标注，确保了数据的质量和准确性。PlantWild数据集主要用于评估和改进在真实世界环境中植物疾病识别的方法，特别是在处理小类间差异和大类内变异问题时。

PlantWild is a large-scale multimodal plant disease recognition dataset developed by the University of Queensland, which contains 18,542 plant images captured in wild environments and covers 89 disease categories. The images of the dataset are sourced from diverse internet resources, and each disease category is provided with detailed textual descriptions generated by GPT-3.5, aiming to offer rich textual information to assist plant disease recognition. The dataset creation process includes image collection, filtering and annotation, ensuring the quality and accuracy of the data. The PlantWild dataset is mainly used to evaluate and improve plant disease recognition methods in real-world scenarios, especially when addressing the challenges of inter-class differences among minor categories and intra-class variations within major categories.

提供机构：

昆士兰大学

创建时间：

2024-08-06

搜集汇总

数据集介绍

构建方式

PlantWild数据集的构建始于对现有植物病害图像识别模型的性能分析。研究者发现，尽管这些模型在实验室环境下对病害图像的识别表现出色，但在野外环境下的表现却显著下降。为了解决这个问题，研究者收集了大量的野外植物病害图像，并补充了每种病害的文本描述。图像数据来源于互联网的多个来源，而文本描述则来自维基百科和GPT-3.5。为了确保数据的质量和标签的正确性，研究团队邀请了五位标注人员对收集到的图像进行筛选和标注。最终，PlantWild数据集包含了18,542张从不同视角、光照条件和背景中捕获的植物图像，涵盖了89种病害类型。

特点

PlantWild数据集的特点在于其大规模和多样化的数据。它是目前最大的野外植物病害图像数据集，不仅包含最多的病害类别，而且每个类别都有多个文本描述，为植物病害识别提供了丰富的多模态信息。此外，PlantWild数据集还包含了健康植物的图像，使得模型能够学习到植物病害与正常状态之间的差异。这些特点使得PlantWild数据集成为评估植物病害识别方法的理想测试平台。

使用方法

使用PlantWild数据集的方法包括多个步骤。首先，数据集需要被分割为训练集、验证集和测试集。然后，可以使用CLIP模型提取图像和文本的视觉和文本特征，并使用K-means聚类算法为每个类别构建多个原型。这些原型可以用于分类任务，例如通过计算输入图像特征与原型之间的余弦相似度来预测图像的类别。此外，PlantWild数据集还可以用于小样本学习和无监督学习场景，例如通过调整超参数来集成视觉和文本原型的预测结果，或者在没有训练数据的情况下使用原型进行分类。

背景与挑战

背景概述

植物病害的准确识别对于农业的健康发展至关重要。然而，现有的植物病害分类模型在识别实验室环境下的病害图像时表现优异，但在实际野外环境中，其性能往往会显著下降。这是因为野外植物图像可能在不同病害之间表现出相似的外观（即类间差异小），而相同的病害可能看起来非常不同（即类内差异大）。为了应对这一挑战，Wei等人于2024年提出了PlantWild数据集，这是一个包含大量病害类别和每种病害的文本描述的多模态野外植物病害识别数据集。该数据集的创建旨在提供一个理想的测试平台，以评估在实际世界中识别植物病害的方法。此外，Wei等人还提出了一种强而灵活的基线模型，该模型通过多个原型对给定类别的文本描述和视觉数据进行建模。通过融合多模态原型的贡献，该基线模型可以有效解决类间差异小和类内差异大的问题。该基线模型不仅可以分类疾病，还可以在少量样本或训练不足的情况下识别疾病。大量的基准测试结果表明，PlantWild数据集为植物病害识别任务提出了许多新的挑战，未来的工作还有很大的改进空间。

当前挑战

PlantWild数据集和相关基线模型的研究面临的主要挑战包括：1) 准确识别来自复杂背景的病害区域；2) 应对类内外观差异大和类间差异小的问题。这些挑战进一步体现了PlantWild数据集的实用性和必要性，并为未来的研究提供了方向。

常用场景

经典使用场景

PlantWild数据集主要用于解决野外植物病害图像的分类问题。由于现有的植物病害分类模型在识别实验室环境下的病害图像方面取得了显著成果，但在分类野外采集的图像时性能会显著下降。PlantWild数据集提供了大量野外植物病害图像，以及每个病害的文本描述，这些描述提供了丰富的文本模态信息，有助于解决野外病害分类中存在的类间差异小和类内差异大的问题。

衍生相关工作

PlantWild数据集的提出促进了野外植物病害识别领域的研究进展。基于PlantWild数据集，研究人员提出了多种新的算法和模型，如MVPDR，这些模型在野外植物病害图像的分类任务中取得了显著的成果。此外，PlantWild数据集的提出也推动了视觉-语言模型在植物病害识别领域的应用，为该领域的研究提供了新的思路和方法。

数据集最近研究