five

Disease-Dataset-db

收藏
github2026-02-01 更新2026-02-09 收录
下载链接:
https://github.com/abhi-abhi86/Disease-Dataset-db
下载链接
链接失效反馈
官方服务:
资源简介:
一个全面的跨物种疾病分析数据集,专为机器学习、兽医病理学和自动分类设计。包含结构化数据,优化用于AI模型训练、比较健康研究和农业研究,支持TensorFlow或PyTorch。数据集内容分为三大类:1. 植物疾病:包括番茄、马铃薯、辣椒等多种作物的病害;2. 动物疾病:如皮肤结节病、疥螨病等;3. 人类疾病:如痤疮、艾滋病等。

A comprehensive cross-species disease analysis dataset designed for machine learning, veterinary pathology and automated classification. It includes structured data optimized for AI model training, comparative health research and agricultural research, and is compatible with either TensorFlow or PyTorch. The dataset is categorized into three main groups: 1. Plant diseases: covering diseases of multiple crops such as tomatoes, potatoes, peppers and other related species; 2. Animal diseases: such as cutaneous nodular disease, sarcoptic mange and other relevant conditions; 3. Human diseases: including acne, AIDS and other related disorders.
创建时间:
2026-01-19
原始信息汇总

数据集概述

数据集简介

这是一个用于跨物种疾病分析的综合性数据集,专为机器学习、兽医病理学和自动分类设计。数据集包含结构化数据,适用于使用TensorFlow或PyTorch进行AI模型训练、比较健康研究以及农业研究。

数据集内容

数据集主要分为三大类别:

1. 植物疾病

涵盖多种作物和病症,包括:

  • 番茄:细菌性斑点病、早疫病、晚疫病、叶霉病、Septoria叶斑病、蜘蛛螨、靶斑病、番茄黄化曲叶病毒、番茄花叶病毒以及健康样本。
  • 马铃薯:早疫病、晚疫病、健康。
  • 甜椒:细菌性斑点病、健康。
  • 其他:槟榔、柑橘溃疡病、白粉病、玫瑰黑斑病。

2. 动物疾病

  • 块状皮肤病
  • 疥螨病
  • 羊痘
  • 猪丹毒

3. 人类疾病

  • 寻常痤疮
  • 艾滋病
  • 湿疹
  • 吸烟者肺
  • 白癜风

数据组织结构

数据集为便于在机器学习流程中加载而构建。

  • dataset_index.csv:主索引文件,包含所有图像的路径和标签。
  • diseases/:主目录,包含按领域和类别排序的所有图像数据。
    • diseases/<domain>/<class>/images/:特定疾病类别的图像。
    • diseases/<domain>/<class>/info.json:关于疾病类别的元数据。

使用与验证

验证数据完整性

运行包含的验证脚本以检查缺失文件或无效元数据: bash python verify_dataset.py

训练与预测

训练

使用默认设置(ResNet18,5个周期)训练模型: bash python train_model.py

训练好的模型将保存为 trained_model.pth

预测

使用训练好的模型预测图像的疾病类别: bash python predict.py path/to/image.jpg

示例: bash python predict.py diseases/plant/tomato_healthy/images/Tomato_healthy.jpg

预训练模型

存储库包含一个 trained data -pt 目录,内含预训练模型:

  • disease_model.pt:一个序列化的PyTorch模型,包含用于疾病分类的权重和架构。

更新记录

  • 2026-01-19:通过Pull Request #1将大规模数据集扩展合并到 main 分支。包括通过分批提交处理大型图像数据集。

未来计划

正在积极收集和标注更多疾病数据,预计未来几天将更新额外的疾病类别和样本。

搜集汇总
数据集介绍
main_image_url
构建方式
在跨物种疾病分析领域,Disease-Dataset-db 的构建体现了系统化数据整合的严谨性。数据集通过多源采集与结构化标注流程,将植物、动物及人类疾病图像与元数据系统性地组织起来。其核心构建方法依赖于层级目录架构与统一的索引文件,每个疾病类别均设有独立的图像文件夹与配套的元数据文件,确保了数据的一致性与可追溯性。近期的大规模扩展通过批量提交方式完成,进一步丰富了样本的多样性与覆盖范围。
特点
该数据集以其跨物种的全面性而著称,涵盖了从农作物病害到动物及人类疾病的广泛类别。其特点在于高度结构化的组织形式,通过主索引文件与标准化的目录树,实现了数据的高效访问与管理。数据集不仅包含丰富的视觉样本,还为每个类别提供了详细的元数据描述,支持从基础分类到深度健康比较研究的多种分析场景。这种设计特别优化了与主流深度学习框架的兼容性,为机器学习模型训练提供了可靠的数据基础。
使用方法
对于研究人员而言,数据集的使用流程设计得直观且高效。用户可通过数据集索引文件快速载入样本路径与标签,并利用提供的验证脚本确保数据完整性。配套的定制化PyTorch数据集类简化了模型训练的数据管道集成,而预训练模型与预测脚本则支持即时的分类推理。完整的训练指南涵盖了从数据加载到模型评估的全过程,使得该数据集能够无缝接入现有的机器学习工作流,加速跨领域疾病分析项目的开发与验证。
背景与挑战
背景概述
随着人工智能技术在生物医学和农业领域的深入应用,跨物种疾病分析数据集的需求日益凸显。Disease-Dataset-db由相关研究团队于近期构建,旨在为机器学习、兽医病理学及自动化分类提供全面的数据支持。该数据集整合了植物、动物和人类三大领域的疾病图像样本,涵盖了番茄、马铃薯等作物的多种病害,以及动物与人类的常见疾病,其结构化设计优化了AI模型训练流程,推动了比较健康研究与农业智能诊断的发展,对促进精准农业和跨学科健康研究具有重要影响力。
当前挑战
在疾病分类领域,该数据集面临的核心挑战在于跨物种疾病特征的异质性,例如植物叶片病斑与动物皮肤病变在视觉模式上差异显著,这增加了统一模型泛化能力的难度。构建过程中,数据收集面临样本标注的专业性要求高,需依赖领域专家进行精确诊断;同时,大规模图像数据的整合与标准化处理,如确保不同来源图像的分辨率、光照条件一致,也构成了技术上的主要障碍。
常用场景
经典使用场景
在农业与兽医病理学领域,Disease-Dataset-db数据集为跨物种疾病分析提供了结构化图像资源。其经典应用场景在于支持基于深度学习的自动化疾病分类模型开发,例如利用卷积神经网络对番茄、马铃薯等作物的叶片病害进行视觉识别,或对动物皮肤病症如羊痘进行诊断辅助。该数据集通过标准化的图像组织与标注,为研究人员构建端到端的机器学习管道奠定了数据基础,尤其在植物健康监测与动物疫病早期预警中展现出重要价值。
实际应用
在实际应用中,Disease-Dataset-db数据集可赋能智能农业系统,实现作物病害的实时田间检测,帮助农民及时采取防治措施以减少经济损失。在兽医领域,该数据集可用于开发移动端动物疾病筛查工具,辅助养殖场进行疫病监控。此外,其包含的人类皮肤病图像也为远程医疗诊断提供了训练数据,支持皮肤科人工智能辅助系统的开发,提升医疗资源的可及性与诊断效率,体现了从实验室研究到产业落地的转化潜力。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,例如基于ResNet架构的迁移学习模型,用于提升跨物种疾病分类的准确率。部分研究利用该数据集的层级结构,开发了多任务学习框架,同时处理植物与动物疾病识别。此外,结合数据增强与元学习技术,学者们进一步探索了小样本场景下的模型适应性,推动了领域自适应方法在农业人工智能中的发展。这些工作不仅验证了数据集的有效性,也拓展了其在细粒度视觉识别与鲁棒性学习方面的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作