尼泊尔草药图像数据集

Name: 尼泊尔草药图像数据集
Creator: 加德满都大学人工智能实验室
Published: 2025-05-04 23:14:44
License: 暂无描述

arXiv2025-05-04 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.02147v1

下载链接

链接失效反馈

官方服务：

资源简介：

尼泊尔草药图像数据集由加德满都大学人工智能实验室创建，包含约12000张草药图像，涵盖了60种不同的草药种类。数据集的创建涉及从互联网收集、手动拍摄和实验室档案获取图像，并经过清洗、预处理和标注。数据集的创建旨在解决草药识别的挑战，特别是针对尼泊尔丰富的生物多样性。该数据集可用于草药分类研究，并支持一个基于深度学习的移动应用程序，用于在资源有限的情况下进行草药图像识别。

The Nepalese Medicinal Herb Image Dataset was developed by the Artificial Intelligence Laboratory of Kathmandu University. It contains approximately 12,000 herb images spanning 60 distinct medicinal herb species. The dataset construction process included internet-based image collection, manual photography, and acquisition of images from laboratory archives, followed by data cleaning, preprocessing, and annotation. This dataset was developed to address the challenges of medicinal herb recognition, especially in the context of Nepal's abundant biodiversity. It can be applied to medicinal herb classification research, and supports a deep learning-based mobile application for herb image recognition in resource-constrained environments.

提供机构：

加德满都大学人工智能实验室

创建时间：

2025-05-04

搜集汇总

数据集介绍

构建方式

尼泊尔草药图像数据集的构建采用了多源数据采集策略，通过整合本地实地拍摄、加德满都大学AI实验室档案库以及网络爬取的图像资源，最终形成包含60类草药、共计12,000张高质量图像的标注数据集。研究团队实施了严格的预处理流程，包括图像质量筛选、统一分辨率至256×256像素、像素值归一化等标准化操作，并采用科学命名法进行多类别标注。为优化模型训练效果，数据集被划分为训练集（9,000张）、验证集（1,500张）和测试集（1,500张），并通过数据增强技术扩充样本多样性。

使用方法

该数据集专为移动端草药识别系统优化，支持端到端的深度学习应用开发。研究者可采用迁移学习框架，基于预训练的DenseNet121等架构进行微调，利用数据增强策略缓解小样本过拟合问题。实际部署时，通过TensorFlow Lite将模型压缩至移动端，实现离线环境下的实时图像分类。应用层设计推荐采用Flutter跨平台框架，集成相机捕获、图库选择和多模态结果展示功能。数据集特别适用于资源受限场景下的对比实验，其标准化划分方案可直接用于模型性能的横向评估，相关评价指标包含AUC-ROC曲线、F1分数等细粒度度量标准。

背景与挑战

背景概述

尼泊尔草药图像数据集由Prajwal Thapa等研究人员于2025年创建，旨在解决尼泊尔丰富生物多样性背景下草药分类的关键挑战。该数据集包含12,000张手工标注的草药图像，涵盖60种不同草药物种，为深度学习和迁移学习技术在植物识别领域的应用提供了重要资源。研究团队采用多种卷积神经网络架构，包括DenseNet121、ResNet50等，通过数据增强和正则化技术提升模型泛化能力。该数据集不仅推动了传统植物学知识的数字化保存，也为可持续草药利用提供了技术支持，特别针对尼泊尔本土草药识别这一研究空白做出了贡献。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，草药识别需克服物种间形态相似度高、生长环境变异大等固有难题，特别是尼泊尔地区特有的草本植物缺乏国际通用识别标准；在构建过程中，研究人员需应对野外采集图像质量不均、网络爬取数据标注不一致等技术障碍，同时需平衡60个类别样本量的分布差异。此外，移动端部署要求模型在保持高准确率的同时满足计算资源限制，这对轻量化模型设计提出了特殊挑战。数据增强策略的优化和跨文化草药知识的整合也是构建过程中的关键难点。

常用场景

经典使用场景

尼泊尔草药图像数据集在植物分类学研究中具有重要价值，特别是在生物多样性丰富的地区。该数据集通过深度学习技术，尤其是卷积神经网络（CNN）和迁移学习方法，实现了对60种不同草药的高效分类。研究人员利用该数据集训练了多种模型架构，包括DenseNet121、ResNet50、VGG16等，并通过数据增强和正则化技术提升了模型的泛化能力。这一数据集为草药识别提供了一种自动化解决方案，填补了传统手动识别方法的不足。

解决学术问题

该数据集解决了草药识别中的多个学术难题，包括草药特征的高变异性、类别间的相似性以及数据稀缺性问题。通过迁移学习和数据增强技术，数据集显著提升了模型在小样本条件下的分类性能。此外，该研究还探讨了不同模型架构在草药分类任务中的表现，为后续研究提供了重要的基准参考。数据集的应用不仅推动了计算机视觉在植物学领域的发展，还为传统草药知识的数字化保存提供了技术支持。

实际应用

尼泊尔草药图像数据集的实际应用场景广泛，尤其在移动端草药识别应用中表现突出。基于该数据集开发的移动应用程序能够帮助用户通过智能手机摄像头实时识别草药，并提供草药的药用价值、生长环境等详细信息。这一技术特别适用于资源有限的地区，如尼泊尔的农村地带，为当地居民和草药研究者提供了便捷的工具。此外，该应用还可与园艺、健康管理等其他工具集成，进一步扩展其应用范围。

数据集最近研究