five

invasive_plants_hawaii

收藏
Hugging Face2025-04-27 更新2025-04-28 收录
下载链接:
https://huggingface.co/datasets/imageomics/invasive_plants_hawaii
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在对各种由于生物控制剂引起的叶片损伤类型进行图像多分类和分割。数据集包含在2025年1月收集于夏威夷希洛附近的*Clidemia Hirta*叶子的背腹面图像,这些叶子均采集于*Steinback Highway*沿线的泥土小径。*Clidemia Hirta*是夏威夷岛(大岛)上的一种高度入侵性植物。数据集包含三种配置,每种配置都可以进一步细分为三种分析分割。
创建时间:
2025-04-14
原始信息汇总

数据集概述:invasive_plants_hawaii

数据集基本信息

  • 名称:Invasive Plants Project
  • 用途:支持图像多分类和分割任务,专注于生物控制剂导致的多种叶片损伤类型。
  • 物种Clidemia Hirta(夏威夷大岛上的高入侵性植物)
  • 采集地点:夏威夷希洛附近的Steinback Highway沿线
  • 采集时间:2025年1月
  • 图像内容:叶片背面(dorsal)和腹面(ventral)图像
  • 许可协议:CC-BY-NC-4.0

数据集配置与划分

1. 完整配置(full)

  • 样本量:1642张图像(821叶片×2面)
  • 子集划分
    • dorsal:821张背面图像(11501554442字节)
    • ventral:821张腹面图像(11474680169字节)
    • both:完整图像集(22640962726.17字节)
  • 下载大小:44.5 GB

2. 机会性采样配置(opportunistic)

  • 样本量:846张图像(423叶片×2面)
  • 子集划分
    • dorsal:423张背面图像(5943664030字节)
    • ventral:423张腹面图像(5930372510字节)
    • both:完整图像集(11874036540字节)
  • 下载大小:23.7 GB

3. 系统性采样配置(systematic)

  • 样本量:796张图像(398叶片×2面)
  • 子集划分
    • dorsal:398张背面图像(5557890412字节)
    • ventral:398张腹面图像(5544307659字节)
    • both:完整图像集(11102198071字节)
  • 下载大小:20.8 GB

数据特征

核心字段

  • session:成像会话标识
  • filename:图像文件名
  • image:图像数据(dtype: image)
  • site:采集地点ID(int32)
  • plant:植株ID(string)
  • view:叶片面(D/V)
  • 损伤类型标注字段(healthy/rust/leaf_miner/other_insect/mechanical_damage

专家验证字段

  • expert_[damage_type]:专家标注结果
  • expert_confidence:专家置信度
  • expert_notes:专家备注

损伤类型分类

  1. 健康状态(healthy)
  2. 真菌损伤(rust):由Colletotrichum gloeosporioides引起
  3. 机械损伤(mechanical_damage)
  4. 潜叶虫损伤(leaf_miner):由Lius Poseidon幼虫引起
  5. 其他昆虫损伤(other_insect)

基准测试结果

F1分数

模型 健康 潜叶虫 真菌 其他昆虫 机械损伤
ConvNext 87.2% 78.0% 76.2% 73.2% 67.8%

ROC-AUC

模型 健康 潜叶虫 真菌 其他昆虫 机械损伤
ConvNext 97.1% 88.2% 86.1% 87.1% 73.8%

数据采集细节

  • 成像设备
    • iPhone 13(会话1-6,9,11)
    • Pixel 3(会话7-8,10,12)
  • 质量控制:排除会话session_1_16_2025的数据
  • 采样协议
    • 系统性采样:标注植株层级(L/M/H)
    • 机会性采样:植株ID标记为Exp

文件结构

/invasive_plants_hawaii/ ├── docs/ # 成像协议文档 ├── metadata/ # CSV元数据文件 ├── [config]/ # Parquet数据文件(full/opportunistic/systematic) └── images/ # 原始图像(按会话分组)

引用信息

  • 维护者:David Carlyn等6人
  • 代码库:https://github.com/Imageomics/invasives-project
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于入侵植物物种的生物防治研究,通过系统性和机会性采样策略收集了夏威夷岛希洛地区*Clidemia Hirta*叶片的双面图像数据。数据采集采用实验室标准成像流程,使用iPhone 13和Pixel 3两种设备在白色网格背景下拍摄,包含12次独立成像会话记录。每片叶子的背腹面图像均配备多维元数据标注,涵盖采样位置、植株层级、五种损伤类型的人工标记及专家验证信息,并通过Parquet文件格式实现高效存储。
特点
数据集包含821片叶子的1642张高分辨率图像,按采样方法划分为系统化采集(398片)和机会性采集(423片)两个子集。其显著特征在于提供叶片损伤的多维度标注体系,包括健康状态、真菌感染、机械损伤等五类损伤的确定性分级(Yes/Maybe/No),并附有专家验证标签和置信度评估。独特的双面成像设计为植物表型研究提供了立体视角,而标准化色彩卡片和定位标记则为图像分析提供了可靠的基准参照。
使用方法
研究者可通过HuggingFace数据集库加载三种预设配置(完整集/系统集/机会集),并选择背侧、腹侧或双面图像子集。典型应用流程包括:使用load_dataset函数加载指定配置,通过session和view字段筛选特定成像条件的样本,利用expert_前缀字段获取专家标注的黄金标准数据。该数据集支持多标签分类和图像分割任务,基准测试表明ConvNext模型在真菌损伤识别上达到76.2%的F1值,为算法开发提供可靠性能参照。
背景与挑战
背景概述
invasive_plants_hawaii数据集由David Carlyn、Catherine Villeneuve等研究人员于2025年创建,旨在通过图像多分类与分割技术研究夏威夷入侵植物Clidemia Hirta叶片受损类型。该数据集聚焦于生物防治剂导致的叶片损伤识别,包含1642张叶片正反面图像,采样于夏威夷希洛地区Steinback Highway沿线。作为生态保护与计算机视觉交叉领域的代表性数据集,其系统性采样方案与专家验证机制为入侵植物监测提供了标准化研究框架,对生物多样性保护与农业病虫害防治具有重要参考价值。
当前挑战
该数据集面临双重挑战:在领域问题层面,叶片损伤的多标签分类需解决类别不平衡(如健康叶片占比过高)及混合损伤类型的特征混淆问题,当前基准模型对真菌损伤的识别F1值仍低于80%;在构建过程中,跨设备成像导致的光照差异(iPhone 13与Pixel 3采集)、叶片正反面纹理差异的标注一致性,以及野外采样时机械损伤与生物损伤的视觉区分,均为数据质量控制的关键难点。此外,专家标注仅覆盖部分样本,如何利用半监督学习提升模型泛化能力成为后续研究的核心挑战。
常用场景
经典使用场景
在生态学和植物病理学领域,invasive_plants_hawaii数据集为研究者提供了关于夏威夷入侵植物Clidemia Hirta叶片损伤的高质量图像数据。该数据集通过系统性和机会性采样方法,捕捉了叶片背腹面的多角度图像,并标注了不同类型的生物控制剂导致的损伤。研究者可以利用这些数据训练深度学习模型,实现叶片损伤的自动分类和分割,为入侵植物管理提供科学依据。
实际应用
在实际应用中,该数据集支持开发智能监测系统,用于夏威夷群岛入侵植物的实时监测。林业部门可基于数据集训练的模型,快速评估Clidemia Hirta的扩散状况和生物控制效果。数据集中的GPS元数据还能与地理信息系统结合,绘制损伤热点图,指导精准的防治资源投放。这种数据驱动的方法显著提高了生态保护的效率和科学性。
衍生相关工作
围绕该数据集已衍生出多项重要研究,包括基于ConvNext架构的损伤分类模型开发,其分类F1-score达到87.2%。在生态信息学领域,研究者利用该数据集构建了损伤程度预测模型,关联环境因子分析生物控制效率。数据集还启发了跨学科合作,促成了计算机视觉技术与传统生态监测方法的融合创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作