Indian Medicinal Leaves Image Dataset, MED117 Medicinal Plant Leaf Dataset, 自建数据集

Name: Indian Medicinal Leaves Image Dataset, MED117 Medicinal Plant Leaf Dataset, 自建数据集
Creator: 高哈蒂大学
Published: 2025-01-16 16:18:03
License: 暂无描述

arXiv2025-01-16 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.09363v1

下载链接

链接失效反馈

官方服务：

资源简介：

该研究使用了三个数据集，其中自建数据集由高哈蒂大学的研究团队创建，包含42,250张图像，涵盖了50种印度阿萨姆地区的药用植物。数据集中的图像通过iPhone 14 Pro拍摄，分辨率高达3024x4032像素，确保了叶片特征的详细捕捉。数据集经过预处理，包括缩放、调整大小和数据增强。该数据集旨在通过深度学习模型解决药用植物叶片的自动识别问题，减少对人工专家的依赖，适用于药用植物分类和识别领域。

This study utilized three datasets. The self-built dataset was created by a research team from Gauhati University, comprising 42,250 images covering 50 species of medicinal plants native to the Assam region of India. All images in this dataset were captured with an iPhone 14 Pro, with a maximum resolution of 3024×4032 pixels, ensuring detailed capture of leaf features. The dataset underwent preprocessing including scaling, resizing and data augmentation. This dataset aims to solve the automatic recognition problem of medicinal plant leaves via deep learning models, reduce reliance on human experts, and is applicable to the fields of medicinal plant classification and recognition.

提供机构：

高哈蒂大学

创建时间：

2025-01-16

搜集汇总

数据集介绍

构建方式

该数据集的构建过程主要依赖于高分辨率图像采集技术，使用iPhone 14 Pro进行图像捕捉，确保图像的细节丰富度。图像采集地点包括印度阿萨姆邦的高哈蒂大学植物园和卡齐兰加兰花苗圃。数据集涵盖了50种药用植物的叶片图像，每类图像数量从110到1800不等。图像经过预处理，包括缩放、调整大小和数据增强，以确保模型的训练效果。

特点

该数据集的特点在于其高分辨率和多样性，图像分辨率达到3024x4032像素，能够捕捉叶片的细微纹理特征。数据集包含50种药用植物的叶片图像，涵盖了不同光照条件和拍摄角度，模拟了真实世界中的多样性。此外，数据集还通过数据增强技术生成了额外的图像，进一步丰富了样本的多样性，有助于提高模型的泛化能力。

使用方法

该数据集主要用于训练和测试深度学习模型，特别是卷积神经网络（CNN），以识别和分类药用植物叶片。数据集被划分为训练集、验证集和测试集，比例为8:1:1。在训练过程中，使用了多种优化器（如Adam、RMSprop和SGD）来调整模型参数，以提高分类精度。通过数据增强和预处理步骤，模型能够更好地适应不同条件下的图像输入，从而在实际应用中表现出色。

背景与挑战

背景概述

Indian Medicinal Leaves Image Dataset、MED117 Medicinal Plant Leaf Dataset以及自建数据集是由印度高哈蒂大学的研究团队于2025年创建的，旨在通过深度学习技术解决传统药用植物叶片识别问题。这些数据集的核心研究问题在于如何利用计算机视觉技术准确区分具有相似外观的药用植物叶片，从而减少对人工专家的依赖。研究团队通过构建自定义卷积神经网络（CNN）模型，成功实现了对药用植物叶片的高精度分类，准确率分别达到99.5%、98.4%和99.7%。这些数据集的创建不仅推动了药用植物识别领域的发展，也为传统医学和现代药物生产提供了重要的技术支持。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，药用植物叶片在外观上具有高度相似性，导致分类任务复杂化，传统的图像处理方法难以实现高精度识别。其次，数据集的构建需要大量高质量的叶片图像，而采集过程中受限于环境光照、叶片状态等因素，图像质量参差不齐，增加了数据预处理的难度。此外，尽管深度学习模型在分类任务中表现出色，但其训练过程对计算资源要求较高，且模型的泛化能力仍需进一步提升。最后，如何将研究成果应用于实际场景，如开发移动应用程序以帮助普通用户识别药用植物，也是未来需要解决的重要挑战。

常用场景

经典使用场景

Indian Medicinal Leaves Image Dataset 和 MED117 Medicinal Plant Leaf Dataset 在植物分类和识别领域具有广泛的应用。这些数据集主要用于训练深度学习模型，特别是卷积神经网络（CNN），以实现对药用植物叶片的精确分类。通过提取叶片的纹理、形状和颜色等特征，模型能够区分不同种类的药用植物，从而为传统医学和现代药物研发提供支持。

实际应用

在实际应用中，这些数据集被用于开发智能识别系统，帮助普通用户快速识别药用植物。例如，基于这些数据集的移动应用程序可以为用户提供实时的植物识别服务，帮助他们在野外或日常生活中准确辨别药用植物。此外，这些数据集还被用于药物研发和植物保护领域，帮助研究人员快速筛选和鉴定具有药用价值的植物。

衍生相关工作

基于 Indian Medicinal Leaves Image Dataset 和 MED117 Medicinal Plant Leaf Dataset，许多经典的研究工作得以展开。例如，研究者提出了多种改进的深度学习模型，如 VGG16、VGG19 和 ResNet 等，用于提高植物分类的准确性。此外，一些研究还结合了迁移学习和注意力机制，进一步提升了模型的性能。这些工作不仅推动了药用植物识别技术的发展，还为其他领域的图像分类任务提供了参考。

以上内容由遇见数据集搜集并总结生成