five

plant-pathology-2021|植物病理学数据集|图像分类数据集

收藏
huggingface2024-11-23 更新2024-12-12 收录
植物病理学
图像分类
下载链接:
https://huggingface.co/datasets/timm/plant-pathology-2021
下载链接
链接失效反馈
资源简介:
Plant Pathology 2021 (FGVC8) Challenge的数据集包含了大约23,000张高质量的RGB图像,这些图像是关于苹果叶部疾病的,并且包括了一个由专家标注的大规模疾病数据集。这些图像反映了真实的田间场景,因为它们代表了在不同成熟阶段和不同时间拍摄的叶子图像,使用了不同的相机设置。数据集的原始版本有一个训练集和一个用于挑战的隐藏测试集。为了验证,从训练集中抽取了10%的数据,使用分层抽样。
提供机构:
PyTorch Image Models
创建时间:
2024-11-23
原始信息汇总

Plant Pathology 2021 (FGVC8) Challenge Dataset

数据集概述

  • 数据集名称: PlantPathology-Challenge-2021-FGVC8
  • 数据集大小: 约23,000张高质量RGB图像
  • 任务类别: 图像分类
  • 标签类别:
    • complex
    • frog_eye_leaf_spot
    • healthy
    • powdery_mildew
    • rust
    • scab
  • 数据集分割:
    • 训练集: 16,768个样本
    • 验证集: 1,864个样本
  • 数据集来源: Kaggle Plant Pathology 2021 (FGVC8) Challenge

数据集特点

  • 图像特征: 包含不同成熟阶段、不同拍摄时间和不同焦距设置下的叶片图像,背景非均匀。
  • 多标签分类: 支持多标签图像分类任务。

数据集结构

  • 特征:
    • image: 图像数据
    • labels: 标签序列,包含6个类别
    • label_names: 标签名称序列
    • image_id: 图像ID

数据集使用

  • 用途: 作为多标签图像分类数据集的示例。

引用

Thapa, Ranjita, Zhang, Kai, Snavely, Noah, Belongie, Serge, and Khan, Awais. Plant Pathology 2021 - FGVC8. https://kaggle.com/competitions/plant-pathology-2021-fgvc8, 2021. Kaggle.

AI搜集汇总
数据集介绍
main_image_url
构建方式
Plant Pathology 2021数据集源自FGVC8挑战赛,旨在提供高质量的苹果叶片病害图像。该数据集通过大幅增加叶片病害图像数量并引入新的病害类别,构建了一个包含约23,000张RGB图像的数据集。这些图像由专家进行标注,涵盖了不同成熟阶段、不同时间拍摄的叶片图像,背景非均匀,反映了真实的田间场景。数据集的训练集和验证集通过分层抽样从原始训练集中划分,验证集占训练集的10%。
特点
该数据集的特点在于其多标签图像分类任务,涵盖了多种苹果叶片病害类别,包括复杂病害、蛙眼叶斑病、健康叶片、白粉病、锈病和疮痂病等。图像质量高,背景多样,能够有效模拟实际田间环境。数据集规模适中,包含16,768张训练图像和1,864张验证图像,适用于深度学习模型的训练与验证。
使用方法
该数据集主要用于多标签图像分类任务,可作为深度学习模型训练的基准数据集。用户可以通过`timm`库加载和使用该数据集,进行模型训练和验证。数据集的图像和标签信息可直接用于构建和评估分类模型,帮助研究人员在植物病理学领域开发更精准的病害识别算法。
背景与挑战
背景概述
植物病理学作为农业科学的重要分支,其研究对于保障粮食安全和提高农作物产量具有深远意义。Plant Pathology 2021-FGVC8数据集由Ranjita Thapa、Kai Zhang、Noah Snavely、Serge Belongie和Awais Khan等研究人员于2021年创建,旨在通过高分辨率的RGB图像识别苹果叶片的病害。该数据集包含了约23,000张高质量图像,涵盖了多种病害类型,如复杂病害、蛙眼叶斑病、健康叶片、白粉病、锈病和疮痂病等。这些图像在不同成熟阶段、不同时间以及不同焦距下拍摄,真实反映了田间场景的多样性。该数据集的发布为植物病害的自动识别和分类提供了重要的数据支持,推动了计算机视觉在农业领域的应用。
当前挑战
Plant Pathology 2021-FGVC8数据集在解决植物病害图像分类问题时面临多重挑战。首先,病害的多样性和复杂性使得模型需要具备强大的多标签分类能力,以准确识别同时存在的多种病害。其次,图像背景的非均匀性以及拍摄条件的多样性增加了模型训练的难度,要求模型具备良好的泛化能力。在数据构建过程中,研究人员需要确保图像的高质量和标注的准确性,这涉及到大量的专家参与和精细的标注工作。此外,数据集的规模较大,处理和分析这些数据需要高效的算法和计算资源。这些挑战不仅考验了模型的性能,也对数据集的构建和管理提出了更高的要求。
常用场景
经典使用场景
在植物病理学领域,plant-pathology-2021数据集被广泛应用于多标签图像分类任务。该数据集包含了约23,000张高质量的苹果叶片病害图像,涵盖了多种病害类型,如锈病、白粉病等。研究人员利用该数据集训练深度学习模型,以识别和分类不同病害,从而为植物病害的早期检测和防治提供技术支持。
衍生相关工作
plant-pathology-2021数据集衍生了一系列经典研究工作。基于该数据集,研究人员开发了多种多标签图像分类模型,如基于卷积神经网络(CNN)和Transformer的模型。这些模型在植物病害识别任务中表现出色,推动了深度学习在农业领域的应用。此外,该数据集还激发了多标签分类算法和图像增强技术的研究,为相关领域提供了新的研究方向。
数据集最近研究
最新研究方向
在植物病理学领域,PlantPathology-2021数据集为苹果叶部病害的多标签图像分类研究提供了重要支持。近年来,随着深度学习技术的快速发展,该数据集被广泛应用于病害自动识别系统的开发。研究者们通过结合卷积神经网络(CNN)和迁移学习技术,显著提升了病害分类的准确性和鲁棒性。特别是在复杂背景下的病害识别,该数据集的高质量图像和专家标注为模型训练提供了坚实基础。此外,该数据集还被用于探索多标签分类中的类别不平衡问题,以及如何通过数据增强和模型优化来提高分类性能。这些研究不仅推动了植物病害自动检测技术的进步,也为农业生产中的病害防控提供了智能化解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

coin_001_sample

这是一个包含180张精心拍摄的钱币图像的数据集,每张图像都采用极简摄影技术,以展示货币的视觉和触觉特性。数据集中的图像以PNG格式存储,拥有512x512的分辨率和170 dpi的清晰度,每个图像都配有至少40个文本标签。

huggingface 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国1km分辨率逐月平均气温数据集(1901-2024)

该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

SwimXYZ

SwimXYZ是由法国中央高等电力学院等机构创建的大型合成游泳动作和视频数据集,包含340万帧标注了2D和3D关节的图像,以及240个游泳动作序列。数据集通过使用GANimator生成多样化的游泳动作,并在Unity环境中模拟真实的水下环境。SwimXYZ旨在解决传统运动捕捉系统在游泳等水下运动中应用的局限性,特别是在缺乏标注数据的情况下。该数据集适用于游泳动作分析、2D和3D姿态估计等研究领域,有助于提升运动员训练和比赛表现的技术支持。

arXiv 收录

Historical Data Breaches Archive

这个仓库包含了一个全面且不断增长的历史数据泄露集合。所有存储在这里的数据泄露都是公开可用的,可以自由下载用于研究、分析或教育目的。

github 收录