PlantVillageVQA

Name: PlantVillageVQA
Creator: 孟加拉国达卡大学
Published: 2025-08-24 03:04:57
License: 暂无描述

arXiv2025-08-24 更新2025-11-25 收录

下载链接：

https://hf-mirror.com/datasets/SyedNazmusSakib/PlantVillageVQA

下载链接

链接失效反馈

官方服务：

资源简介：

PlantVillageVQA是一个大规模的视觉问答（VQA）数据集，来源于广泛使用的PlantVillage图像语料库。它旨在推动农业决策和农业分析中视觉-语言模型的发展与评估。该数据集包含193,609个高质量的问题答案（QA）对，覆盖55,448张图片，跨越14个作物物种和38种疾病条件。问题分为3个认知复杂度级别和9个不同的类别。每个问题类别都是根据专家指导手动设计的，并通过自动化的两阶段流程生成：（1）基于图像元数据的模板式QA合成；（2）多阶段语言重新设计。数据集经过领域专家的迭代审查，以确保科学准确性和相关性。最终数据集使用三个最先进的模型进行了质量评估。我们的目标是为植物病害识别提供公开可用、标准化且经专家验证的数据库，以增强诊断准确性，并推动农业领域的科学研究。我们的数据集将在以下地址开源：

PlantVillageVQA is a large-scale visual question answering (VQA) dataset derived from the widely used PlantVillage image corpus. It aims to promote the development and evaluation of vision-language models for agricultural decision-making and agricultural analytics. This dataset contains 193,609 high-quality question-answer (QA) pairs, covering 55,448 images spanning 14 crop species and 38 disease conditions. The questions are divided into 3 cognitive complexity levels and 9 distinct categories. Each question category was manually designed under expert guidance and generated through an automated two-stage process: (1) template-based QA synthesis using image metadata; (2) multi-stage language redesign. The dataset underwent iterative review by domain experts to ensure scientific accuracy and relevance. The final dataset was evaluated for quality using three state-of-the-art models. Our goal is to provide a publicly available, standardized and expert-validated database for plant disease recognition, to enhance diagnostic accuracy and advance scientific research in the agricultural field. Our dataset will be open-sourced at the following address:

提供机构：

孟加拉国达卡大学

创建时间：

2025-08-24

搜集汇总

数据集介绍

构建方式

在植物病理学与人工智能交叉领域，PlantVillageVQA数据集通过系统化流程构建而成。其以PlantVillage图像库为基础，采用两阶段生成策略：首先基于图像元数据的目录结构自动生成问题模板，形成27.8万组初始问答对；随后通过多阶段语言重构技术，对高频问题实施模板化复述与词汇扩展，并采用分层校正机制优化反事实推理类问题的逻辑一致性。整个构建过程历经两轮植物学专家验证，确保科学准确性与领域相关性。

特点

该数据集涵盖14种作物与38类病害的5.5万张图像，包含19.3万组问答对，具有鲜明的专业特性。问题设计采用三级认知复杂度框架，从基础感知到高阶推理分为九个类别，既包含植物种类识别的直接查询，也涉及病因推断与反事实推演的复杂任务。通过语言学重构技术，问题词汇量提升359%，答案描述兼具专业术语与自然表达，形成了兼具病理学严谨性与语言多样性的特色体系。

使用方法

作为专业视觉问答基准数据集，其标注文件提供CSV与JSON双格式，包含图像路径、问题类型及参考答案等结构化字段。研究人员可通过加载图像与对应问答对，训练跨模态模型实现植物病害诊断。在验证阶段建议采用准确率、BLEU等多维度指标，特别针对反事实推理等复杂类别需结合语义相似度评估。该数据集支持模型在植物健康评估、病原识别等场景的精细化性能测试，为农业决策系统开发提供标准化评估基础。

背景与挑战

背景概述

植物病理学领域长期面临全球粮食安全威胁，据研究显示每年因病虫害导致的作物损失高达30%。在此背景下，达卡大学机器人工程与植物学系研究团队于2025年推出PlantVillageVQA数据集，该资源基于广泛应用的PlantVillage图像库构建，包含55,448张植物叶片图像与193,609组问答对，覆盖14类作物和38种病害状态。该数据集通过九类认知层级问题设计，致力于推动农业决策分析中的视觉语言模型发展，成为首个经植物学家系统验证的多模态植物科学数据集。

当前挑战

在领域问题层面，传统植物病理诊断模型局限于图像分类而缺乏因果推理能力，PlantVillageVQA需解决从症状识别到病因推断的跨模态理解难题。构建过程中面临双重挑战：其一是确保专业术语准确性，通过两阶段专家验证机制修正27,242组反事实推理问答；其二是语言多样性优化，采用模板复述与分层抽样技术将问题词汇量提升359%，同时通过自动化质量评估管道检测25,418组异常数据，最终实现问答对的结构平衡与语义丰富性。

常用场景

经典使用场景

在农业智能诊断领域，PlantVillageVQA数据集通过视觉问答框架实现了植物病理的多层次分析。该数据集覆盖14种作物和38种疾病状态，其九类问题设计从基础物种识别延伸至反事实推理，为模型提供了渐进式认知训练场景。研究人员常利用其分层问题结构评估视觉语言模型在叶片病斑检测、病原推断等任务中的表现，尤其在细粒度视觉分类和语义理解方面展现出独特价值。

衍生相关工作

该数据集催生了多个领域专用模型的创新，如结合视觉Transformer的AgroGPT系统实现了跨作物病理问答，LLaVa-PlantDiag框架则通过混合专家模型优化了多疾病识别精度。后续研究基于其分层标注开发了渐进式训练策略，在视觉属性定位任务中取得突破。这些工作共同推动了农业多模态模型从粗粒度分类向细粒度诊断的演进，形成了植物科学领域专用VQA的技术谱系。

数据集最近研究