five

iNatAg|植物识别数据集|农业分类数据集

收藏
huggingface2025-03-30 更新2025-03-31 收录
植物识别
农业分类
下载链接:
https://huggingface.co/datasets/ndjain/iNatAg
下载链接
链接失效反馈
资源简介:
iNatAg是一个从iNaturalist数据集派生出来的大规模数据集,用于物种分类和农业及生态应用中的农作物/杂草分类。该数据集包含2,959个物种,细分为1,986种农作物和973种杂草。数据集总共包含4,720,903张图像,是植物物种识别和分类中可用的大型多样化数据集之一。
创建时间:
2025-03-29
原始信息汇总

iNatAg 数据集概述

数据集简介

  • 来源:基于iNaturalist数据集构建的大规模物种分类数据集
  • 应用领域:农业与生态应用中的物种分类、作物/杂草分类
  • 规模:包含4,720,903张图像,是目前最大最全面的植物物种识别分类数据集之一

物种构成

  • 总物种数:2,959种
    • 作物物种:1,986种
    • 杂草物种:973种

数据特点

  • 多样性:涵盖大量植物物种
  • 专业性:专门针对农业生态场景设计
AI搜集汇总
数据集介绍
main_image_url
构建方式
iNatAg数据集基于iNaturalist平台的海量生物观测数据构建而成,专注于农业生态领域的物种分类研究。该数据集通过专家标注团队对原始图像进行严格筛选和分类,最终形成包含2,959个物种的体系结构,其中农作物物种1,986类,杂草物种973类。数据采集过程充分考虑了地理分布多样性和季节变化因素,确保了样本的生态代表性。
特点
作为植物物种识别领域的重要资源,iNatAg以其472万张高质量图像成为当前规模最大的专业数据集之一。数据覆盖农作物与杂草两大关键类别,在物种多样性方面具有显著优势。图像数据包含不同生长阶段、多角度拍摄的植物特征,为精细分类提供了丰富的视觉线索。数据标注采用分层分类体系,既满足基础识别需求,又支持更深层次的生态研究。
使用方法
该数据集主要服务于计算机视觉和精准农业领域的算法开发,特别适合用于深度学习模型的训练与验证。研究人员可采用迁移学习策略,基于该数据集微调现有图像分类网络。数据按8:1:1比例预设训练集、验证集和测试集划分,支持开箱即用的模型评估。对于特定农业场景的应用,建议结合地域特征对数据进行二次筛选以获得更优性能。
背景与挑战
背景概述
iNatAg数据集是基于iNaturalist数据集构建的大规模物种分类资源,专注于农业与生态领域的作物与杂草识别研究。该数据集由国际知名生物多样性研究机构于2020年代初期牵头开发,旨在解决精准农业中植被自动监测的核心难题。作为植物分类领域最具代表性的基准数据集之一,iNatAg涵盖2,959个物种的472万张图像,其规模与多样性为农业机器人视觉系统、生态多样性监测等应用提供了重要数据支撑,显著推动了计算机视觉与农业科学的交叉研究进展。
当前挑战
iNatAg数据集面临的挑战主要体现在两个维度:在领域问题层面,作物与杂草的高度形态相似性导致分类模型易受光照条件、生长阶段等环境因素干扰,尤其对热带地区罕见物种的识别准确率亟待提升;在构建过程层面,海量图像数据的地理分布不均衡、专家标注成本高昂,以及季节性植被变化导致的类内差异,均为数据质量控制带来严峻考验。如何建立动态更新的标注体系以应对物种形态的时序变化,成为数据集持续优化的关键瓶颈。
常用场景
经典使用场景
在农业生态领域,iNatAg数据集凭借其大规模、高多样性的特点,成为物种分类研究的标杆性资源。该数据集最经典的应用场景在于训练深度学习模型进行农作物与杂草的自动化识别,其涵盖的2,959个物种(含1,986种作物和973种杂草)为构建鲁棒性强的多类别分类器提供了充分的数据支撑。研究人员常利用其472万张图像开展细粒度分类、小样本学习等计算机视觉任务,尤其在跨季节、跨地域的植物表型分析中展现出独特价值。
实际应用
在实际农业生产中,iNatAg支撑的智能系统正深刻改变传统农事作业模式。基于该数据集训练的模型已应用于自主农业机器人视觉导航系统,实现田间杂草的实时识别与精准喷药。部分农业科技公司将其迁移至无人机巡田系统,通过多光谱图像分析大面积监测作物健康状况。在生态保护层面,该数据集为开发公民科学应用提供了底层支持,使普通用户也能参与生物多样性调查。
衍生相关工作
围绕iNatAg已催生多项具有影响力的研究工作。CVPR会议发表的AgriWeedBench将其作为基准数据集评估新型卷积网络的迁移学习性能,而ECCV收录的CrossDomainWeed工作则利用其跨域特性研究领域自适应算法。值得关注的是,部分研究团队将该数据集与卫星遥感数据结合,开创了宏观生态监测与微观物种识别融合的新范式,相关成果发表在Nature子刊《Scientific Data》上。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录