合成图像数据集

Name: 合成图像数据集
Creator: 堪萨斯州立大学计算机科学系
Published: 2021-10-06 23:18:17
License: 暂无描述

arXiv2021-10-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2110.02846v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究开发了一个用于种子分类的合成图像数据集，由堪萨斯州立大学计算机科学系创建。数据集包含5000张图像，涵盖五种不同类型的种子：油菜、糙米、高粱、大豆和小麦。这些图像通过使用Parrot AR Drone 2.0无人机在低空拍摄的真实种子样本生成，利用域随机化技术进行图像合成。数据集的创建旨在通过深度学习模型，如VGG-16、VGG-19和ResNet-101，提高种子分类的准确性，解决种子认证中的分类问题。

This research developed a synthetic image dataset for seed classification, which was constructed by the Department of Computer Science at Kansas State University. The dataset contains 5,000 images covering five distinct seed classes: rapeseed, brown rice, sorghum, soybean, and wheat. These images were generated from real seed samples captured at low altitude using a Parrot AR Drone 2.0 unmanned aerial vehicle, with image synthesis implemented via domain randomization techniques. The dataset was designed to enhance the accuracy of seed classification and resolve classification issues in seed authentication by leveraging deep learning models including VGG-16, VGG-19, and ResNet-101.

提供机构：

堪萨斯州立大学计算机科学系

创建时间：

2021-10-06

搜集汇总

数据集介绍

构建方式

合成图像数据集的构建方式主要依赖于领域随机化技术，即通过模拟真实种子在不同尺寸和方向上的图像，以弥补真实种子样本数量不足的问题。研究人员首先使用Parrot AR Drone 2.0的低空摄像头捕捉少量真实种子样本的视频，然后通过Python-OpenCV框架处理视频，提取种子图像，并在不同背景上以不同大小和方向随机放置，从而生成大量的合成图像。这些图像经过亮度调整、水平翻转、垂直翻转、旋转和缩放等图像增强处理后，用于训练深度神经网络。

使用方法

使用该数据集进行种子分类的方法主要包括以下几个步骤：首先，将数据集分为训练集和验证集；其次，使用预训练的卷积神经网络模型（如ResNet-100、VGG-16和VGG-19）进行迁移学习和微调；然后，使用训练好的模型对测试集进行种子分类；最后，通过集成模型将多个模型的预测结果进行融合，以提高最终的分类精度。在使用过程中，还需要注意对数据集进行适当的图像增强处理，以增加模型的泛化能力。

背景与挑战

背景概述

在植物育种项目中，种子核的监测和分类对于种子认证至关重要。然而，由于种子核的微小尺寸，在育种环境中对其进行监测和分类具有挑战性。无人机（UAV）技术为种子监测和分类提供了新的可能性，因为它们能够在低空捕获图像，并能够访问环境中最偏远的区域。使用无人机图像进行种子分类的一个关键瓶颈是无人机的高度，即随着高度的增加，由于图像细节的降低，分类精度会下降。为了解决这个问题，研究人员开发了一种使用领域随机化（Domain Randomization, DR）的技术，通过从少量种子样本生成合成图像数据集来训练模型。这些合成图像数据集模拟了种子在不同大小和方向下的真实世界情况，从而提高了模型的泛化能力。本文介绍了使用微软的ResNet-100、牛津的VGG-16和VGG-19卷积神经网络进行种子分类的框架，并通过集成模型提高了分类精度。

当前挑战

合成图像数据集在种子分类中的挑战主要包括：1）种子在育种环境中的形态变化，使得创建一个能够覆盖所有评估场景的训练数据集变得困难；2）无人机高度的变化会影响图像的细节和分类精度；3）合成图像数据集的生成需要大量的种子样本，这通常难以实现。为了解决这些挑战，研究人员采用领域随机化技术，使用少量的真实种子样本生成大量的合成图像数据集，并通过集成多个预训练的卷积神经网络模型来提高分类精度。

常用场景

经典使用场景

合成图像数据集被广泛应用于种子分类任务中，特别是在种子认证和种子表型分析领域。该数据集通过低空无人机捕获真实种子样本，并利用领域随机化技术生成大量合成图像，以模拟种子在不同大小和方向上的变化，从而解决了实际种子样本获取困难的问题。该数据集为基于深度学习的种子分类模型提供了高质量的训练数据，使得模型能够在不同高度和角度的无人机图像上准确识别种子类型，从而为种子认证和种子表型分析提供了有力支持。

解决学术问题

合成图像数据集解决了种子分类任务中训练数据获取困难的问题。在实际种子认证和种子表型分析过程中，获取大量不同大小和方向的种子样本是一项挑战。该数据集通过领域随机化技术，利用少量真实种子样本生成大量合成图像，从而为种子分类模型提供了高质量的训练数据。此外，该数据集还解决了无人机图像分辨率和清晰度对种子分类准确性的影响，通过在不同高度捕获种子图像，确保了训练数据对真实世界场景的代表性，从而提高了种子分类的准确性。

实际应用

合成图像数据集在实际应用中，被广泛应用于种子认证和种子表型分析领域。通过使用低空无人机捕获种子图像，并利用领域随机化技术生成大量合成图像，该数据集为基于深度学习的种子分类模型提供了高质量的训练数据。这些模型能够在不同高度和角度的无人机图像上准确识别种子类型，从而为种子认证和种子表型分析提供了有力支持。此外，该数据集还可以用于其他农业领域的图像识别任务，如植物病害检测、作物产量预测等。

数据集最近研究