five

CNH-98|中药材识别数据集|图像分类数据集

收藏
github2023-02-07 更新2024-05-31 收录
中药材识别
图像分类
下载链接:
https://github.com/scut-aitcm/Chinese-Herbs-Dataset
下载链接
链接失效反馈
资源简介:
Chinese-Herbs Dataset (CNH-98) 是一个包含9184张图像的数据集,涵盖98个类别,分为8个主要类别,包括果实与种子、根茎、花朵、树皮、叶状体、全草、叶子、树脂等。每个类别包含14至246张图像,平均每个类别有94张图像。

The Chinese-Herbs Dataset (CNH-98) is a collection of 9,184 images spanning 98 categories, which are divided into 8 main groups including fruits and seeds, rhizomes, flowers, barks, thalluses, whole herbs, leaves, and resins. Each category contains between 14 to 246 images, with an average of 94 images per category.
创建时间:
2018-11-16
原始信息汇总

Chinese Herbs Dataset (CNH-98) 概述

数据集基本信息

  • 图像数量: 9184张
  • 类别数量: 98类
  • 平均每类图像数量: 约94张
  • 图像范围: 每类14至246张

类别分布

  • 主要类别: 8类
    • Fruits & Seeds
    • Rhizome
    • Flowers
    • Bark
    • Thallophyte
    • Whole Herbs
    • Leaves
    • Resin

类别示例

  • Fruits & Seeds: Star Anise, Siraitia Grosvenorii, Ginkgo, Chinese Wolfberry, Selfheal, Fructus Arctii等
  • Rhizome: Liquorice, Thorowax Root, Rhizoma Alismatis, Unibract Fritillary Bulb等
  • Flowers: Saffron, Flos Daturae, Cloves, Magnolia, Coltsfoot, Flos Jasmine, Lily等
  • Bark: Cinnamon, Cortex Moutan, Eucommia Ulmoides等
  • Thallophyte: Glossy Ganoderma, Tremella, Cordyceps Sinensis等
  • Whole Herbs: Abrus cantoniensis, Anoectochilus roxburghii等
  • Leaves: Lophatherum Gracile等
  • Resin: Frankincense, Myrrh等

数据集来源

数据集使用

  • 非商业用途请联系:crghwen@scut.edu.cn
AI搜集汇总
数据集介绍
main_image_url
构建方式
CNH-98数据集的构建过程体现了对中医药材图像数据的系统性收集与整理。该数据集通过从医院、中药材商店以及Google图片等多元化来源获取图像,确保了数据的广泛性和代表性。每类药材的图像数量从14到246不等,平均每类包含94张图像,总计9184张图像,覆盖了98种不同的中药材类别。这种构建方式不仅保证了数据的丰富性,也为后续的深度学习模型训练提供了坚实的基础。
特点
CNH-98数据集的特点在于其细致的分类和广泛的覆盖范围。数据集将中药材分为8个大类,包括果实与种子、根茎、花、树皮、菌类、全草、叶和树脂,每一类下又细分为多个具体的中药材品种。这种多层次分类体系不仅有助于研究者深入理解中药材的多样性,也为图像识别和分类任务提供了清晰的标签体系。此外,数据集中每类药材的图像数量分布较为均衡,确保了模型训练的稳定性和可靠性。
使用方法
CNH-98数据集的使用方法主要围绕图像分类和识别任务展开。研究者可以通过加载数据集中的图像和标签,利用深度学习框架如TensorFlow或PyTorch进行模型的训练与验证。数据集中的图像尺寸统一为32x32像素,适合用于卷积神经网络(CNN)等模型的输入。此外,数据集还提供了一个包含20类药材的样本集,供研究者快速上手和测试。对于非商业用途的研究者,可以通过联系数据集提供方获取完整数据集,进一步推动中医药材图像识别领域的研究。
背景与挑战
背景概述
CNH-98数据集是一个专注于中草药图像分类的公开数据集,由华南理工大学的研究团队于近年创建。该数据集包含了9184张图像,涵盖了98个不同类别的中草药,这些类别进一步细分为8个大类,包括果实与种子、根茎、花、树皮、菌类、全草、叶和树脂。数据集的图像来源多样,包括医院、中草药店以及Google图片等。CNH-98的创建旨在为中草药识别和分类研究提供一个标准化的基准,推动了计算机视觉在传统医学领域的应用。
当前挑战
CNH-98数据集在构建和应用过程中面临多重挑战。首先,中草药的形态多样性和视觉相似性使得图像分类任务极具挑战性,尤其是在类别间差异较小的情况下。其次,数据集的构建过程中,研究人员需要确保图像的质量和代表性,这涉及到从不同来源收集图像并进行严格的筛选和标注。此外,数据集中各类别的样本数量不均衡,某些类别的图像数量较少,可能导致模型训练时的偏差问题。这些挑战不仅考验了数据集的构建质量,也对后续的算法设计和模型优化提出了更高的要求。
常用场景
经典使用场景
CNH-98数据集在中医药领域的图像识别和分类研究中具有重要应用。该数据集包含了9184张图像,涵盖98种中草药类别,分为8大类,如果实与种子、根茎、花、树皮等。研究者可以利用该数据集进行中草药图像的自动化识别和分类,尤其是在深度学习模型的训练和验证中,CNH-98为算法提供了丰富的样本数据,帮助提升模型的准确性和鲁棒性。
衍生相关工作
CNH-98数据集催生了一系列与中草药图像识别相关的研究工作。例如,基于该数据集的深度学习模型在图像分类、目标检测和特征提取等领域取得了显著进展。许多研究利用CNH-98进行迁移学习和数据增强实验,进一步提升了模型的泛化能力。此外,该数据集还为跨领域研究提供了基础,如结合自然语言处理技术,开发智能问答系统,帮助用户查询中草药信息。
数据集最近研究
最新研究方向
在中医药领域,CNH-98数据集为研究者提供了一个丰富的图像资源库,涵盖了98种中草药的9184张图像,分为8个主要类别。这一数据集的最新研究方向聚焦于利用深度学习技术进行中草药的自动识别与分类,特别是在图像处理和模式识别领域的应用。研究者们正探索如何通过卷积神经网络(CNN)等先进算法,提高中草药识别的准确性和效率,这对于中医药的现代化和国际化具有重要意义。此外,该数据集还被用于研究不同中草药之间的相似性和差异性,为中医药的科学研究提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。

huggingface 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

mmlu_eval

该数据集用于评估和比较不同模型的推理能力。它包含多个特征,如问题、主题、选项、答案、输入、基线模型输出、混合推理模型输出和评估结果。数据集分为一个验证集,包含1531个样本。数据集的大小为10295402字节,下载大小为4908248字节。

huggingface 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录