iNatAg
收藏arXiv2025-03-26 更新2025-03-28 收录
下载链接:
https://github.com/Project-AgML/AgML
下载链接
链接失效反馈官方服务:
资源简介:
iNatAg是一个大规模的图像数据集,包含超过470万张图片,涵盖2959种不同的农作物和杂草。该数据集由iNaturalist数据库中的公开数据经过精心筛选而来,旨在为农业应用服务。数据集包含精确的物种分类注释,以及从二元农作物/杂草标签到具体物种标签的税务分类层次。该数据集具有广泛的地理覆盖范围,反映了自然图像捕捉和环境变化的多样性,可为构建健壮的、具有地理位置意识的农业分类系统提供新的基础。
iNatAg is a large-scale image dataset containing over 4.7 million images covering 2959 distinct crop and weed species. This dataset is curated from publicly available data sourced from the iNaturalist database, and is developed specifically for agricultural applications. It features accurate species classification annotations, as well as a taxonomic hierarchy ranging from binary crop/weed labels to fine-grained species-level labels. Boasting extensive geographic coverage, it reflects the diversity of natural image capture scenarios and environmental variations, providing a novel foundation for building robust, geospatially-aware agricultural classification systems.
提供机构:
加利福尼亚大学戴维斯分校, 普林斯顿大学, AI食品系统研究所
创建时间:
2025-03-26
搜集汇总
数据集介绍

构建方式
iNatAg数据集通过精心筛选iNaturalist数据库中的农业相关物种构建而成,涵盖了全球范围内的作物和杂草物种。研究团队利用FAO Ecocrop数据库和WSSA杂草名录,通过模糊字符串匹配技术筛选出2,959个物种,包括1,986种作物和973种杂草。为确保数据质量,每个物种的图像数量控制在50至2,500张之间,最终形成包含472万张图像的大规模数据集。每张图像均标注了物种分类层级信息和作物/杂草标签,并保留了原始的地理位置元数据。
特点
iNatAg数据集以其规模宏大和多样性著称,包含472万张图像,覆盖全球各大洲的农业物种,真实反映了自然环境中植物形态的复杂性。数据集不仅提供精细的物种分类标签,还包含作物与杂草的二元标注,支持多任务学习。图像采集自真实场景,涵盖了不同光照、背景和生长阶段的变异,增强了模型的泛化能力。此外,丰富的地理位置信息为研究地域性物种分布提供了独特优势。
使用方法
该数据集通过AgML平台提供标准化访问接口,支持按物种、属或科级别灵活加载数据。研究人员可使用预定义的API快速获取数据子集,例如iNatAg-mini包含56万张图像的精简版本。典型工作流包括加载数据后,应用Swin Transformer等架构进行多任务训练,同时整合地理坐标作为辅助特征。数据已预分割为训练集(75%)、验证集(15%)和测试集(10%),并推荐使用随机翻转、色彩抖动等增强策略提升模型鲁棒性。
背景与挑战
背景概述
iNatAg数据集由加州大学戴维斯分校、普林斯顿大学及食品系统人工智能研究所的研究团队于2025年推出,旨在解决精准农业中作物与杂草物种识别的核心问题。该数据集包含470万张图像,涵盖2,959个物种,并标注了从物种到作物/杂草分类的多层级标签。其数据源自iNaturalist平台,经过严格的农业相关性筛选,结合了联合国粮农组织生态作物数据库及美国杂草科学学会的权威物种列表。iNatAg以其规模和多任务标注体系,为农业视觉识别系统提供了地理多样性丰富、环境变量覆盖全面的基准数据,推动了细粒度植物分类领域的研究进展。
当前挑战
iNatAg面临的挑战主要体现在两方面:领域问题层面,需克服物种间高度视觉相似性(如作物与伴生杂草的形态近似性)、自然环境变异(光照、遮挡及背景复杂性)导致的识别困难;数据构建层面,需解决原始数据中农业相关物种的筛选难题(通过模糊字符串匹配技术协调不同数据库的命名差异)、地理分布不平衡(通过图像数量上限控制避免优势物种过拟合),以及多任务标注系统的设计(同步支持物种分类与作物/杂草二元判断)。这些挑战通过引入地理空间元数据和层级损失函数得以部分缓解,但跨区域小样本物种的识别仍是未完全解决的难点。
常用场景
经典使用场景
iNatAg数据集在农业植物分类领域具有广泛的应用价值,尤其在精准农业和可持续农业实践中。该数据集包含了来自全球各地的4.7百万张图像,涵盖了2,959种作物和杂草物种,为研究人员提供了丰富的视觉数据资源。通过其多任务标注体系,iNatAg能够支持从物种分类到作物/杂草区分的多种任务,为农业机器学习和计算机视觉研究提供了坚实的基础。
解决学术问题
iNatAg数据集解决了农业领域中植物物种分类的多个关键学术问题。首先,它填补了大规模农业图像数据集的空白,克服了现有数据集在物种多样性和地理覆盖上的局限性。其次,通过引入多任务标签(如作物/杂草分类)和地理空间数据,该数据集支持更复杂的模型训练,提升了分类的准确性和泛化能力。此外,iNatAg还通过其丰富的标注信息,为研究植物物种间的形态相似性和分类错误模式提供了新的分析可能性。
衍生相关工作
iNatAg数据集的发布推动了多个相关领域的研究进展。基于该数据集,研究人员开发了多种先进的深度学习模型,如Swin Transformer的变体,并结合LoRA微调和地理空间数据增强技术,显著提升了分类性能。此外,iNatAg还启发了对植物分类中错误模式的研究,例如物种间形态相似性对分类的影响。这些衍生工作不仅扩展了农业AI的应用范围,也为未来的多模态农业数据分析提供了新的思路。
以上内容由遇见数据集搜集并总结生成



