Leafy Spurge Dataset
收藏arXiv2024-05-09 更新2024-06-24 收录
下载链接:
https://huggingface.co/datasets/mpg-ranch/leafy_spurge
下载链接
链接失效反馈官方服务:
资源简介:
用于机器学习的无人机图像数据集,包含美国蒙大拿州西部草地中叶状千里光的存在与不存在情况,旨在通过计算机视觉系统提高对入侵植物的控制。
This drone image dataset for machine learning comprises imagery annotated for the presence and absence of leafy groundsel in grasslands of western Montana, USA, with the objective of improving invasive plant control via computer vision systems.
创建时间:
2024-05-03
原始信息汇总
数据集概述
数据集信息
- 特征列表:
image: 图像数据,数据类型为image。idx: 索引,数据类型为int64。label: 标签,数据类型为string。longitude: 经度,数据类型为float64。latitude: 纬度,数据类型为float64。easting: 东坐标,数据类型为float64。northing: 北坐标,数据类型为float64。elevation: 海拔,数据类型为float64。time: 时间,数据类型为int64。cluster: 聚类,数据类型为int64。
配置信息
-
context 配置:
drop_labels:falsedata_files:train分割:data/context/train/**/*.tifdata/context/train/metadata.csv
test分割:data/context/test/**/*.tifdata/context/test/metadata.csv
-
crop 配置:
drop_labels:falsedata_files:train分割:data/crop/train/**/*.tifdata/crop/train/metadata.csv
test分割:data/crop/test/**/*.tifdata/crop/test/metadata.csv
-
unlabelled 配置:
data_files:train分割:data/orthomosaic/*.tif
许可证
- 许可证:cc-by-4.0
引用信息
- BibTeX 引用: bibtex @misc{doherty2024leafy, title={Leafy Spurge Dataset: Real-world Weed Classification Within Aerial Drone Imagery}, author={ Kyle Doherty and Max Gurinas and Erik Samsoe and Charles Casper and Beau Larkin and Philip Ramsey and Brandon Trabucco and Ruslan Salakhutdinov }, year={2024}, eprint={2405.03702}, archivePrefix={arXiv}, primaryClass={cs.CV} }
发布日期
- 发布日期:2024-05-02
语言
- 语言:英语(en)
数据集名称
- 名称:Leafy Spurge Dataset
数据集大小
- 大小类别:n<1K
搜集汇总
数据集介绍

构建方式
在生态监测领域,无人机遥感技术为入侵植物识别提供了高效手段。Leafy Spurge数据集的构建始于对美国蒙大拿州西部草地的实地调查,研究人员首先使用高精度GPS设备采集了乳浆大戟(Euphorbia esula)的存在与缺失地面真值,每个样本对应0.5米×0.5米的范围。随后,利用DJI Mavic 3M无人机在50米高度进行航拍,获取了8241张重叠图像,并通过DroneDeploy软件进行特征匹配与几何校正,生成了空间分辨率为1.27厘米/像素的正射影像。地面控制点的应用进一步降低了地理配准误差,最终从正射影像中裁剪出与地面真值对应的图像区域,形成了包含标记与未标记数据的完整数据集。
特点
该数据集在生态遥感领域展现出鲜明的独特性。其核心在于提供了高空间分辨率的无人机影像,精确捕捉了乳浆大戟在复杂自然生境中的形态特征。数据包含两种图像尺寸配置:39×39像素的裁剪图像直接对应地面真值范围,而1024×1024像素的上下文图像则提供了更广阔的背景信息。此外,数据集中包含大量未标记的正射影像,为无监督或半监督学习研究创造了条件。作为首个从50米高空获取的乳浆大戟顶部视角影像集合,该数据集有效避免了与现有大型生成模型训练数据的重叠,为零样本和少样本学习评估提供了纯净的测试平台。
使用方法
该数据集可通过Hugging Face平台便捷访问,支持多种机器学习任务。研究人员可使用Python代码加载不同配置的数据,包括用于二元分类的“crop”和“context”图像及其对应标签,以及用于探索性分析的“unlabelled”完整正射影像。在模型训练中,可借鉴原论文采用的预处理流程,如图像归一化至224×224像素、应用色彩抖动与随机翻转等数据增强技术。数据集适用于评估卷积神经网络与视觉Transformer架构的性能,特别适合研究在复杂地形和光照条件下杂草识别的鲁棒性。未标记数据部分还可用于开发自监督学习算法,以提升生态遥感场景下的特征表示能力。
背景与挑战
背景概述
入侵植物物种对农业和野生地区的生态构成严重威胁,乳浆大戟(Leafy Spurge)作为一种源自东欧的入侵杂草,已在北美广泛扩散,对畜牧业和野生生态系统造成显著损害。为应对这一生态挑战,MPG Ranch与卡内基梅隆大学等机构的研究人员于2023年合作创建了Leafy Spurge数据集,旨在利用无人机航拍图像结合计算机视觉技术,实现对乳浆大戟的精准监测与分类。该数据集聚焦于野生环境中的杂草识别问题,通过高分辨率航拍影像和精确的地面真实数据,为生态学、保护生物学和遥感领域提供了重要的研究资源,推动了入侵植物管理的智能化发展。
当前挑战
Leafy Spurge数据集所解决的核心领域挑战在于野生环境中入侵植物的精准识别,其背景复杂多变,物种多样性高,地形崎岖导致光照条件不均,增加了目标植物与背景区分的难度。构建过程中面临多重挑战:首先,数据采集需在复杂地形中确保无人机航拍图像的几何精度与地理配准,依赖地面控制点来最小化误差;其次,地面真实数据的获取依赖于专业植物学家的实地勘察,耗时费力且受天气条件制约;此外,图像分类任务中,模型需处理小尺度目标(如0.5×0.5米区域)的细微特征,同时避免因图像尺寸扩展而引入噪声,这对计算机视觉算法的鲁棒性与泛化能力提出了较高要求。
常用场景
经典使用场景
在生态监测与遥感领域,无人机影像为入侵植物识别提供了高效手段。Leafy Spurge Dataset作为首个专注于乳浆大戟(Euphorbia esula)的航空影像数据集,其经典使用场景在于训练和评估计算机视觉模型,以实现对该入侵杂草的自动检测与分类。通过结合高分辨率无人机正射影像与精准地面真值,该数据集支持研究者开发针对复杂野外环境的分类算法,为生态管理中的早期入侵预警提供技术基础。
解决学术问题
该数据集主要解决了野生环境下入侵植物自动识别的学术挑战。传统遥感方法在物种多样性高、地形复杂的自然区域中,难以从多变背景中准确区分目标植物。Leafy Spurge Dataset通过提供真实世界的航空影像与精细标注,使研究者能够探索模型在光照变化、地形起伏及背景干扰下的鲁棒性,推动了计算机视觉在生态遥感中的适应性研究,并为少样本学习、无监督学习等前沿方向提供了验证平台。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于预训练的DINOv2视觉变换器与ResNet50架构的分类性能对比,揭示了小尺度图像在杂草检测中的优势。同时,数据集中未标注的正射影像部分激发了无监督与自监督学习在遥感领域的应用探索。此外,该数据集因其独特性和新颖性,被用于评估基础模型的零样本与少样本能力,为生成模型在未知领域的数据泄露问题提供了纯净的测试基准。
以上内容由遇见数据集搜集并总结生成



