rice-disease-dataset
收藏Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/minhhungg/rice-disease-dataset
下载链接
链接失效反馈官方服务:
资源简介:
越南水稻病害与作物推荐数据集是一个农业AI数据集,包含37,978张水稻植物图像,涵盖21个类别(病害、害虫、营养缺乏、健康)。该数据集专为图像分类任务设计,提供了训练、验证和测试集的划分,以及健康、害虫、病害和营养四个原始类别的划分。每张图像都附有英文类别标签,并提供了越南语名称和各类别的近似数量。数据集中的图像分辨率不一,平均高度和宽度分别为1,223像素和1,053像素,文件格式为JPEG。数据收集自越南湄公河三角洲及周边农业地区的田间照片。数据集存在明显的类别不平衡问题,最大和最小类别的样本数量相差37.6倍。建议在训练时使用类别权重或焦点损失来应对这一问题。此外,数据集的地理局限性、图像质量变异性和单一作物覆盖等局限性也被明确指出。
创建时间:
2026-04-01
原始信息汇总
越南水稻病害与作物推荐数据集概述
数据集基本信息
- 数据集名称:Vietnamese Rice Disease & Crop Recommendation Dataset
- 发布者:minhhungg
- 许可证:apache-2.0
- 主要任务类别:zero-shot-classification
- 语言:vi
- 总下载大小:14,739,266,671 字节
- 数据集总大小:12,544,633,962 字节
数据集内容与规模
- 数据类型:图像(JPG格式)
- 总样本数:37,978 张图像
- 类别总数:21 个类别
- 任务:图像分类
- 特征字段:
image:水稻植株照片label:英文类别标签
数据划分详情
原始类别划分
| 划分名称 | 描述 | 样本数量 | 数据大小(字节) |
|---|---|---|---|
healthy |
原始健康水稻图像 | 1,882 | 474,126,138 |
pests |
原始害虫/昆虫图像(9类) | 7,142 | 369,735,476 |
diseases |
原始水稻病害图像(8类) | 8,859 | 901,219,319 |
nutrition |
原始营养缺乏图像(3类) | 1,156 | 1,053,826,854 |
训练/验证/测试划分
| 划分名称 | 描述 | 样本数量 | 数据大小(字节) |
|---|---|---|---|
train |
分层训练集(70%) | 26,584 | 6,946,207,334 |
validation |
分层验证集(15%) | 5,697 | 1,382,383,061 |
test |
分层测试集(15%) | 5,697 | 1,417,135,780 |
train/validation/test划分从所有21个类别中分层抽取,用于模型训练。四个类别划分(healthy、pests、diseases、nutrition)反映了原始收集的文件夹结构。
类别标签定义
健康(1类)
| 英文标签 | 越南语名称 | 图像数量 |
|---|---|---|
Healthy |
Cây lúa khỏe mạnh | 3,764 |
害虫/昆虫(9类)
| 英文标签 | 越南语名称 | 大致数量 |
|---|---|---|
Tungro Virus |
Tungro virus | 3,480 |
Hispa |
Sâu gai | 2,922 |
Rice Gall Midge |
Sâu năn (Muỗi hành) | 1,582 |
Chilo Stem Borer |
Sâu đục thân (Sọc nâu) | 1,490 |
Rice Leaf Folder |
Sâu cuốn lá nhỏ | 1,210 |
Thrips |
Bọ trĩ | 1,160 |
Rice Skipper |
Sâu cuốn lá lớn | 950 |
Yellow Stem Borer |
Sâu đục thân (vàng) | 910 |
Brown Plant Hopper |
Rầy nâu | 580 |
病害(8类)
| 英文标签 | 越南语名称 | 大致数量 |
|---|---|---|
Leaf Scald |
Bệnh cháy lá | 3,340 |
Sheath Blight |
Bệnh đốm vằn / khô vằn | 3,156 |
Brown Spot |
Bệnh đốm nâu | 3,140 |
Bacterial Leaf Blight |
Bệnh bạc lá | 2,950 |
Narrow Brown Spot |
Bệnh gạch nâu | 2,832 |
Blast |
Bệnh đạo ôn lá và cổ bông | 2,000 |
Bakanae Disease |
Bệnh lúa von (lúa đực) | 100 |
False Smut |
Bệnh than vàng | 100 |
营养缺乏(3类)
| 英文标签 | 越南语名称 | 图像数量 |
|---|---|---|
Nitrogen Deficiency |
Thiếu đạm (N) | 880 |
Potassium Deficiency |
Thiếu kali (K) | 766 |
Phosphorus Deficiency |
Thiếu lân (P) | 666 |
类别不平衡情况
- 最常见类别:
Healthy(3,764 张图像) - 最不常见类别:
Bakanae Disease(100 张图像) - 不平衡比例:37.6 倍
- 建议:在训练时使用类别权重或焦点损失以应对不平衡。
图像属性(基于1,050张抽样图像分析)
| 属性 | 值 |
|---|---|
| 平均高度 | 1,223 像素 |
| 平均宽度 | 1,053 像素 |
| 最常见宽高比 | 1:1(正方形) |
| 高度范围 | 217 – 4,301 像素 |
| 宽度范围 | 201 – 4,364 像素 |
| 平均文件大小 | 282 KB |
| 平均亮度 | 149.5 / 255 |
| 颜色通道 | RGB(3) |
| 文件格式 | JPEG (.jpg / .JPG / .jpeg) |
图像分辨率差异很大。在此数据集上训练的所有模型都将输入调整为 224 × 224 像素。
数据收集与来源
- 来源:从互联网多个来源收集的田间照片
- 地理范围:越南(湄公河三角洲及周边农业区)
- 地理偏差说明:图像仅在越南收集。对于气候、水稻品种或光照条件差异较大的水稻种植区(例如南亚、东非)的泛化能力尚未验证。
数据集创建与预处理
- 原始划分:图像未调整大小或增强,以原始分辨率提供。
- 划分生成:
train划分 CSV 文件使用sklearn.model_selection.train_test_split(stratify=label)和random_state=42进行分层 70/15/15 分割生成。
局限性
- 地理局限性:仅在越南收集。病虫害外观可能因不同气候带、水稻品种或土壤类型而异。
- 类别不平衡:最大类和最小类之间存在37倍不平衡。未经补偿训练的模型可能在
Bakanae Disease和False Smut(各100张图像)上表现不佳。 - 图像质量可变性:图像宽度从201像素到4,364像素不等,在不同田间光照条件(阴天、直射阳光、阴影)下拍摄。训练前需要分辨率归一化。
- 单一作物:仅涵盖水稻(Oryza sativa)。未经重新训练不适用于其他作物。
- 标注粒度:营养缺乏标签(N、P、K)按营养元素级别分配,而非按缺乏严重程度阶段分配。
搜集汇总
数据集介绍

构建方式
在农业人工智能领域,精准识别水稻病害对保障粮食安全至关重要。该数据集通过系统收集越南湄公河三角洲及周边农业区的实地照片构建而成,涵盖水稻健康状态、虫害、病害及营养缺乏四大类别,总计包含37,978张图像,对应21个细分类别。原始数据未经过尺寸调整或增强处理,保持了图像的原生分辨率;随后采用分层抽样策略,以70:15:15的比例划分训练集、验证集和测试集,确保了各类别在数据分割中的均衡分布,为模型训练提供了结构化的基准。
特点
该数据集呈现出鲜明的多维度特征。其图像分辨率跨度较大,宽度介于201至4,364像素之间,高度范围从217到4,301像素,多数图像接近正方形比例,这要求预处理阶段进行统一的尺寸归一化。数据集中类别分布存在显著不平衡,最丰富的“健康”类别与最稀疏的“Bakanae Disease”类别之间样本量相差约37.6倍,这种不平衡性提示在模型训练中需引入类别权重或焦点损失等机制。此外,所有图像均以RGB色彩通道存储为JPEG格式,平均亮度约为149.5,为视觉模型提供了丰富的色彩与纹理信息。
使用方法
该数据集适用于图像分类任务的模型开发与评估。使用者可通过Hugging Face的`datasets`库直接加载,并利用`train`、`validation`和`test`这三个分层划分的拆分进行模型训练与验证。在预处理环节,建议将图像统一缩放至224×224像素,并可结合随机水平翻转、色彩抖动等增强技术以提升模型泛化能力。针对类别不平衡问题,可在训练配置中采用加权损失函数。数据集亦支持按原始类别拆分(如`diseases`、`pests`)进行特定子集的分析,为农业病害诊断研究提供了灵活且标准化的数据基础。
背景与挑战
背景概述
水稻作为全球重要的粮食作物,其健康管理对保障粮食安全至关重要。随着人工智能技术在农业领域的深入应用,基于视觉的植物病害自动诊断成为研究热点。在此背景下,由研究人员Albert Tran创建的rice-disease-dataset应运而生,旨在为水稻病害识别提供高质量的图像数据资源。该数据集聚焦于越南水稻种植区,涵盖了包括病害、虫害、营养缺乏及健康植株在内的21个类别,共计37,978张田间图像。其核心研究问题在于通过计算机视觉技术实现水稻多种胁迫状态的精准分类,从而辅助农民进行早期干预与决策。该数据集的发布为农业人工智能,特别是热带水稻种植系统的病害诊断模型开发,提供了重要的基准数据支撑。
当前挑战
该数据集致力于解决农业领域中水稻多类别健康状态图像分类的复杂问题。首要挑战在于类别间存在显著的样本不平衡,最大与最小类别的样本量相差约37.6倍,这可能导致模型对罕见类别(如恶苗病)的识别性能不佳。其次,图像数据本身存在较大异质性,包括分辨率跨度大(宽度从201像素至4364像素不等)、田间拍摄光照条件多变以及背景复杂,这些因素均对模型的鲁棒性提出了更高要求。在构建过程中,挑战主要源于数据收集的地理局限性,所有图像均采集自越南,这引入了特定的气候、水稻品种和田间管理实践偏差,可能限制模型在其他稻作区的泛化能力。此外,原始图像未进行标准化预处理,要求使用者必须实施有效的尺寸归一化与数据增强策略以应对上述变异性。
常用场景
经典使用场景
在农业智能与植物病理学领域,精准识别水稻病害是保障粮食安全的关键环节。该数据集作为一项专门针对越南地区水稻病害的图像分类资源,其经典使用场景集中于训练和评估深度学习模型,以实现对水稻健康状态、病虫害类型及营养缺乏症状的自动化诊断。研究人员通常利用其分层划分的训练、验证和测试集,构建卷积神经网络或视觉Transformer模型,通过端到端的学习方式,从田间拍摄的图像中提取判别性特征,从而完成对21个类别的精确分类。
实际应用
在实际农业生产中,该数据集支撑了智能农业诊断系统的开发与应用。基于此数据集训练的模型可集成至移动应用程序或田间监测设备中,使农民或农技人员能够通过智能手机拍摄水稻叶片或植株照片,实时获取病害诊断结果与防治建议。这种技术应用显著降低了病害识别对专业知识的依赖,实现了早期预警与精准干预,有助于减少农药滥用、提高水稻产量与品质。尤其在越南等水稻主产区,此类工具为应对稻瘟病、褐飞虱等常见威胁提供了高效、低成本的解决方案。
衍生相关工作
围绕该数据集,已衍生出一系列具有影响力的经典研究工作。原项目“Plant Diagnosis Suite”开发了基于该数据集的疾病检测器,展示了端到端分类流程。后续研究多集中于模型架构创新,如采用EfficientNet、Vision Transformer等先进网络进行性能优化与轻量化部署。同时,针对数据不平衡问题,学者们提出了多种数据增强与重采样策略的对比研究。此外,该数据集常被用作迁移学习研究的基准,评估在ImageNet等大型数据集上预训练的模型在农业特定任务上的适应能力。部分工作还探索了多任务学习框架,尝试将病害分类与严重程度评估相结合,进一步拓展了其应用边界。
以上内容由遇见数据集搜集并总结生成



