abdoutobblaze99/plantdoc-converted

Name: abdoutobblaze99/plantdoc-converted
Creator: abdoutobblaze99
Published: 2026-04-25 15:01:17
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/abdoutobblaze99/plantdoc-converted

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: image - name: width dtype: int64 - name: height dtype: int64 - name: objects struct: - name: bbox sequence: sequence: float64 - name: category sequence: int64 - name: category_name sequence: string - name: label_for_paligemma dtype: string splits: - name: train num_bytes: 381814027.517 num_examples: 2009 - name: validation num_bytes: 43123345.0 num_examples: 314 - name: test num_bytes: 41875561.0 num_examples: 246 download_size: 456871676 dataset_size: 466812933.517 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

提供机构：

abdoutobblaze99

搜集汇总

数据集介绍

构建方式

PlantDoc-converted数据集源于PlantDoc数据集，旨在为植物病害检测领域提供标准化的目标检测标注格式。原始PlantDoc数据集包含多种植物叶片图像及其对应的病害类别标签，而此转换版本通过精细的后处理流程，为每张图像生成了边界框（bbox）、类别索引（category）与类别名称（category_name）等结构化标注信息。此外，数据集还特别生成了名为“label_for_paligemma”的文本字段，以便与多模态大模型PaliGemma的输入格式兼容。整个数据集被划分为训练集（2009例）、验证集（314例）和测试集（246例），确保模型评估的严谨性。

使用方法

使用时，可通过HuggingFace Datasets库加载该数据集，利用内置的“image”字段访问图像数据，并配合“objects”字段中的边界框与类别信息进行目标检测模型训练。对于多模态任务，可直接调用“label_for_paligemma”字段作为文本提示输入至PaliGemma模型。数据划分明确，用户可按需选择train、validation或test子集。建议在训练前对图像进行标准化预处理，并结合数据增强技术以应对样本量有限的挑战，从而取得更优的病害识别性能。

背景与挑战

背景概述

植物病害是全球农业生产面临的重大威胁，每年导致巨额经济损失与粮食安全问题。基于深度学习的图像识别技术为自动诊断植物病害提供了高效手段，然而高质量、标准化的标注数据集严重匮乏，限制了模型在真实农业场景中的泛化能力。plantdoc-converted数据集由相关研究机构于近年创建，旨在填补这一空白。该数据集来源于PlantDoc项目，经过格式转换与标注优化，包含2009张训练图像、314张验证图像和246张测试图像，覆盖多种常见作物及其病害类别，并提供了边界框标注与类别标签。其核心研究问题在于推动从实验室条件到田间复杂背景下的病害检测与分类，为农业智能化诊断系统的开发奠定数据基础，在精准农业与计算机视觉交叉领域具有重要影响力。

当前挑战

该数据集所解决的领域问题核心挑战在于植物病害识别中环境干扰的鲁棒性不足。田间图像常因光照变化、遮挡、叶片重叠及多病害并发等因素，导致模型难以从复杂背景中准确分离病斑区域。此外，不同病害在早期阶段视觉特征极为相似，增加了细粒度分类的难度。在构建过程中，主要挑战包括原始PlantDoc图像来源多样、分辨率不一，需统一格式并重标边界框以保证标注一致性。数据量相对较小，易引发过拟合，且类别分布不均，某些罕见病害样本稀少，可能影响模型平衡学习。同时，未标注的噪声样本（如非病害图像）也需严格过滤，以提升数据集质量与可信度。

常用场景

经典使用场景

植物病害自动识别是精准农业与计算机视觉交叉领域的热点研究方向。plantdoc-converted数据集以其精细的标注体系——涵盖多类植物叶片病害的边界框与类别标签——为训练和评估基于深度学习的物体检测与实例分割模型提供了标准化的数据基石。科研人员常利用该数据集开发诸如YOLO、Faster R-CNN等主流检测算法，在叶片图像中准确定位病斑区域，从而实现对不同作物病害类型的自动判别。该数据集的设计充分考虑了实际种植环境中的光照、角度和背景复杂性，使得模型训练更具鲁棒性与泛化能力。

解决学术问题

在植物病理学与农业信息学领域，传统病害诊断依赖人工目视检查，效率低下且主观性强，难以大规模推广。plantdoc-converted数据集从根本上解决了病害图像样本稀缺、标注不统一两大核心瓶颈。通过提供经过严格验证的多样性病害叶片图像及对应的边界框注释，研究者得以构建高精度的自动化检测模型，有效区分不同病害的形态学特征。这不仅推动了弱监督学习和领域自适应等前沿技术的研究，还为跨品种、跨地区的病害识别奠定了数据基础，显著提升了农业病害智能监测的科学水平。

实际应用

该数据集的实际应用场景植根于现代智能农业的生态体系。基于plantdoc-converted训练的模型可集成到无人机巡视系统或手机端农技应用之中，实现田间地头实时叶片病害检测与预警。农民或农技人员只需拍摄叶片图像，智能后端即可快速评估病害种类与严重程度，辅助精准用药决策，降低农药滥用风险。此外，该数据集的标注格式易于转化为语义分割或关键点检测任务，进一步拓展了在自动化灌溉、产量预测和植物表型分析等精细农事管理环节的应用边界。

数据集最近研究