POCO (Plant Objects in COntext) datasets

arXiv2020-04-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2004.03351v1

下载链接

链接失效反馈

官方服务：

资源简介：

POCO数据集是由Patrick Wspanialy等作者开发，专注于农业领域的计算机视觉研究。该数据集包含从商业温室、PlantVillage和Google Images收集的原始图像，总计包含10k个番茄、7k个叶子、2k个茎和2k个病叶的标注。数据集的创建过程涉及使用多种标注工具，包括手动、半自动和全自动方法，以提高标注效率和准确性。该数据集的应用领域主要集中在植物部分的识别、疾病和害虫的检测以及植物生长过程的监测，旨在通过技术手段帮助小规模种植者更好地管理作物，增加全球食品供应。

The POCO dataset was developed by authors including Patrick Wspanialy, with a core focus on computer vision research within the agricultural domain. It consists of raw images collected from commercial greenhouses, PlantVillage, and Google Images, and includes a total of 10k annotated tomato samples, 7k leaf samples, 2k stem samples, and 2k diseased leaf samples. During the dataset creation process, multiple annotation tools and methods were employed, namely manual, semi-automatic, and fully automatic approaches, to enhance annotation efficiency and accuracy. The primary application areas of this dataset cover plant part recognition, disease and pest detection, and plant growth monitoring. Its ultimate goal is to help small-scale growers better manage crops and boost global food supplies via technical means.

提供机构：

未提及

创建时间：

2020-04-06

搜集汇总

数据集介绍

构建方式

在农业计算机视觉研究领域，构建高质量标注数据集是推动算法发展的关键。POCO数据集通过整合多源图像数据，采用创新的标注工具与流程进行构建。其图像来源于商业温室实地采集、PlantVillage公开资源及谷歌图像搜索，确保了数据多样性与现实代表性。标注过程运用了自由多边形、洪水填充、画笔擦除、关键点标注及基于DEXTR与Mask R-CNN的半自动与自动标注技术，显著提升了复杂自然对象边界标注的精度与效率。最终生成的标注遵循扩展的COCO格式，涵盖叶片、果实、茎秆实例分割及病害区域标注，形成了结构化的农业场景理解数据集。

特点

POCO数据集在农业视觉任务中展现出鲜明的专业特性。其标注内容不仅包含植物器官（如果实、叶片、茎秆）的实例级像素分割，还专门标注了叶片病害区域，为病害严重度评估提供了精细数据支撑。数据集采用扩展COCO格式存储，在保持与通用视觉工具兼容的同时，通过“poco”属性字段融入了成熟度阶段、植株编号、动态关键点骨架等农业元数据，增强了标注的语义层次。数据子集按植物器官、病害与害虫、植株发育时序进行组织，支持针对不同应用场景的精细化研究。图像场景覆盖温室环境与自然生长状态，体现了农业实际生产中的复杂性与多样性。

使用方法

研究者可利用POCO数据集开展多种农业计算机视觉任务。数据集提供的实例分割标注可直接用于训练目标检测与语义分割模型，如Mask R-CNN等架构，以识别并定位图像中的植物器官与病害区域。扩展的COCO格式确保了与主流深度学习框架（如PyTorch、TensorFlow）及评估工具链的无缝对接，用户可便捷地加载标注进行模型训练与性能验证。对于时序分析任务，植株发育子集的时间序列图像支持生长建模与阶段预测研究。此外，数据集中包含的关键点与骨架信息可用于植物形态结构分析。通过利用不同的子集，研究者可针对特定问题（如病害严重度分级、果实成熟度识别）定制训练流程，推动精准农业中的视觉感知技术进步。

背景与挑战

背景概述

在精准农业与计算机视觉交叉领域，POCO（Plant Objects in COntext）数据集由Patrick Wspanialy、Justin Brooks与Medhat Moussa于2020年共同创建，旨在推动农业场景理解研究。该数据集整合了商业温室原始图像、PlantVillage叶片图像及网络公开图像，通过扩展COCO格式标注了番茄、叶片、茎秆及病害区域等实例分割数据，总计涵盖逾两万标注对象。其核心研究问题聚焦于解决农业图像中复杂自然对象的精细分割与多实例识别，为植物生长监测、病害评估及产量预测等应用提供标准化数据基础，显著促进了农业视觉算法的可复现性与跨研究比较。

当前挑战

POCO数据集面临的挑战主要体现在两方面：其一，在领域问题层面，农业图像中植物对象形态多样、遮挡严重且背景复杂，对实例分割与病害区域检测的精度提出极高要求，同时需兼顾不同生长阶段与环境的泛化能力；其二，在构建过程中，标注工作因自然对象边缘曲折、实例密集而耗时巨大，研究团队为此开发了融合手动、半自动与全自动工具的标注系统，并需克服数据来源异构、标注一致性维护以及扩展COCO格式以适应农业元数据动态需求的工程难题。

常用场景

经典使用场景

在农业计算机视觉领域，POCO数据集为植物对象识别与分割提供了关键支持。该数据集通过整合商业温室、PlantVillage及谷歌图像等多源图像，并采用扩展COCO格式的像素级标注，构建了涵盖番茄、叶片、茎秆及病害区域的精细化实例分割标注库。其经典应用场景集中于训练深度学习模型，以实现自然农业场景下植物器官的精确检测与分割，为自动化农业监测系统奠定数据基础。

衍生相关工作

围绕POCO数据集，学术界衍生了一系列经典研究工作。例如，基于其标注的病害叶片数据，研究者开发了针对特定作物疾病的早期检测模型；利用时间序列子集，多项研究实现了植株生长动态建模与产量预测。此外，该数据集格式的兼容性也促进了Mask R-CNN等通用分割模型在农业领域的迁移学习与优化，形成了从数据标注到算法创新的完整研究链条。

数据集最近研究