合成体外大豆荚数据集

Name: 合成体外大豆荚数据集
Creator: 中国农业大学信息与电气工程学院
Published: 2022-04-23 03:36:28
License: 暂无描述

arXiv2022-04-23 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2204.10902v1

下载链接

链接失效反馈

官方服务：

资源简介：

合成体外大豆荚数据集是由中国农业大学信息与电气工程学院开发的高通量数据集，用于模拟成熟大豆植株上分支大豆荚的频繁物理接触。该数据集通过一种新颖的自动化图像生成方法快速生成，包含大量标注样本，用于深度学习模型的训练和验证。数据集的创建旨在解决传统人工计数大豆荚的高成本和低效率问题，通过精确的实例分割技术，为大豆育种提供更准确的表型参数参考，并帮助农民快速估计大豆产量。

The in-silico soybean pod dataset is a high-throughput dataset developed by the College of Information and Electrical Engineering of China Agricultural University. It is designed to simulate frequent physical contacts between branched soybean pods on mature soybean plants. Rapidly generated through a novel automated image generation approach, the dataset includes a large volume of annotated samples for training and validating deep learning models. The creation of this dataset aims to resolve the high costs and low efficiency of traditional manual soybean pod counting. By employing precise instance segmentation technology, it provides more accurate phenotypic parameter references for soybean breeding and enables farmers to quickly estimate soybean yields.

提供机构：

中国农业大学信息与电气工程学院

创建时间：

2022-04-23

搜集汇总

数据集介绍

构建方式

在农业表型研究中，针对大豆荚果原位分割任务面临标注数据稀缺的挑战，合成体外大豆荚数据集通过创新的自动化图像生成方法构建。该方法首先采集真实体外大豆荚样本，经扫描后分割为单个荚果图像，建立大豆荚图像池；同时准备黑色背景图像池作为合成基础。通过算法在画布上随机放置、旋转与缩放荚果图像，并动态调整重叠阈值以模拟真实场景中荚果的密集接触，从而批量生成带有精细标注掩码的合成图像。这一流程实现了大规模高质量标注数据的自动创建，有效支撑后续迁移学习需求。

特点

该数据集的核心特点在于其高度仿真的合成性与结构化的标注信息。合成图像通过控制重叠系数，精确模拟了成熟大豆植株上荚果相互触碰的复杂空间分布，为模型提供了贴近真实场景的训练样本。数据集中每个荚果实例均配有像素级掩码标注，支持实例分割任务的精细学习。此外，数据集与真实世界成熟大豆植株图像构成混合模拟/真实、体外/枝上双域数据体系，为从模拟到现实、从体外到枝上的两阶段迁移学习提供了连贯的数据基础，显著提升了模型在真实农业环境中的泛化能力。

使用方法

该数据集主要用于基于深度学习的大豆荚果实例分割模型训练，特别适用于两阶段迁移学习框架。首先，利用大规模合成体外大豆荚数据集对在通用数据集（如MS COCO）上预训练的实例分割网络进行微调，使模型学习荚果的基本特征与重叠形态。随后，使用少量真实成熟大豆植株的标注数据对模型进行二次微调，完成从合成域到真实域、从体外场景到枝上场景的知识迁移。实践中，可结合图像增强技术提升数据多样性，并采用AP50等指标评估分割性能，最终实现田间大豆荚果的高精度原位分割与计数。

背景与挑战

背景概述

在植物表型组学与精准农业交叉领域，对成熟大豆植株进行高通量表型分析是提升育种效率与产量预测的关键。传统人工统计豆荚数量存在效率低下、易出错等局限，而基于深度学习的实例分割方法虽能提供精准解，却受制于大规模标注数据的匮乏。为此，中国农业大学与德国波恩大学的研究团队于2022年共同构建了合成体外大豆荚数据集。该数据集旨在通过合成数据生成技术，模拟真实场景中豆荚密集接触的复杂结构，以解决田间原位豆荚分割中标注数据稀缺的核心研究问题，为农业视觉任务中数据驱动的模型训练提供了新颖的范式，推动了合成数据在植物表型分析中的实际应用。

当前挑战

该数据集致力于应对田间原位大豆豆荚实例分割的挑战，其核心在于解决成熟大豆植株结构复杂、豆荚间频繁重叠与遮挡导致的精准分割难题。在构建过程中，研究团队面临双重挑战：其一，如何通过合成数据真实模拟豆荚的物理接触与空间分布，以弥合合成与真实场景间的域差异；其二，在有限真实标注数据条件下，设计有效的迁移学习策略，确保模型能够从合成数据中提取可迁移的特征，并在真实植株图像上实现稳健的泛化性能。

常用场景

经典使用场景

在农业表型组学领域，合成体外大豆荚数据集为深度学习模型提供了丰富的标注样本，尤其适用于实例分割任务。该数据集通过自动化图像生成方法，模拟了真实大豆植株上豆荚密集重叠的复杂结构，为训练高精度分割网络奠定了数据基础。其经典应用场景在于作为迁移学习的中间域，帮助模型从通用数据集（如MS COCO）过渡到真实农业环境，有效缓解了农业图像标注数据稀缺的瓶颈问题。

实际应用

在实际农业场景中，该数据集支持大豆植株豆荚的自动化计数与表型分析，为育种专家和农民提供高效的产量评估工具。通过基于该数据集训练的分割模型，可实现田间大豆豆荚的实时监测与形态参数提取，替代传统人工计数方法，显著提升农业生产的精准性与效率。此外，该技术可扩展至其他作物表型研究，推动智慧农业系统的实际部署与应用。

衍生相关工作

该数据集衍生了一系列基于合成数据的农业视觉研究，例如结合Swin Transformer等先进网络架构的实例分割模型优化工作。相关研究进一步探索了不同重叠度与数据量对分割性能的影响，并推动了跨域迁移学习在作物监测中的创新应用。这些工作不仅深化了合成数据在植物表型领域的理论价值，也为后续多作物、多场景的表型分析提供了方法论参考。

以上内容由遇见数据集搜集并总结生成