AMI (Automated Monitoring of Insects) dataset
收藏arXiv2024-06-18 更新2024-06-20 收录
下载链接:
https://github.com/RolnickLab/ami-dataset
下载链接
链接失效反馈官方服务:
资源简介:
AMI数据集是由魁北克人工智能研究所等机构创建,旨在通过自动化监控技术解决昆虫多样性和数量监测的挑战。该数据集包含两部分:AMI-GBIF和AMI-Traps,前者包含约2.5M张来自公民科学平台和博物馆的人工捕获图像,后者则是由全球自动相机陷阱收集的2,893张专家标注图像,总计标注了52,948只昆虫。AMI数据集的创建过程涉及从全球多个地区收集图像,并由专家进行详细标注。该数据集主要应用于生态学领域,特别是昆虫物种的自动识别和监测,以应对昆虫多样性减少的问题。
The AMI dataset was developed by institutions including the Quebec Artificial Intelligence Institute, aiming to address the challenges of insect diversity and abundance monitoring using automated monitoring technologies. This dataset consists of two components: AMI-GBIF and AMI-Traps. The former includes approximately 2.5 million manually captured images sourced from citizen science platforms and museums, while the latter comprises 2,893 expert-annotated images collected by global automated camera traps, with a total of 52,948 annotated insects. The curation of the AMI dataset involves collecting images from multiple regions across the globe and conducting detailed expert annotations. This dataset is primarily utilized in the field of ecology, particularly for automated insect species identification and monitoring, to tackle the issue of declining insect diversity.
提供机构:
魁北克人工智能研究所
创建时间:
2024-06-18
搜集汇总
数据集介绍

构建方式
AMI数据集由两部分组成:AMI-GBIF和AMI-Traps。AMI-GBIF数据集通过从全球生物多样性信息设施(GBIF)平台获取的公民科学数据和博物馆收藏的图像进行整理,涵盖了约250万张图像。AMI-Traps数据集则通过全球多个地区的自动化昆虫相机陷阱收集了2893张图像,并由专家进行标注,共包含52,948个标记的昆虫。数据集的构建旨在测试在野外条件下的分布外泛化能力,特别是在昆虫物种识别中的细粒度分类任务。
特点
AMI数据集的特点在于其多样性和复杂性。AMI-GBIF数据集包含了来自全球的5000多种蛾类的高质量图像,覆盖了77个科、1734个属和5364个物种。AMI-Traps数据集则捕捉了野外环境中的昆虫图像,具有挑战性的图像条件,如光照变化、昆虫重叠、运动模糊等。此外,数据集的分布呈现长尾特性,许多物种的图像数量较少,增加了分类任务的难度。
使用方法
AMI数据集的使用方法主要包括训练和评估计算机视觉模型,特别是用于细粒度昆虫分类任务。研究人员可以使用AMI-GBIF数据集进行模型训练,并通过AMI-Traps数据集测试模型在野外条件下的泛化能力。数据集还支持多种数据增强技术,如混合分辨率(MixRes)增强,以提高模型在不同地理和硬件条件下的性能。此外,数据集提供了物种、属和科三个层次的分类任务,便于评估模型在不同分类粒度上的表现。
背景与挑战
背景概述
AMI(Automated Monitoring of Insects)数据集由Mila - Quebec AI Institute等机构的研究人员于2024年创建,旨在解决昆虫多样性监测中的关键问题。昆虫占全球生物多样性的一半,但其种群数据严重不足,主要由于专家资源稀缺和监测工具的局限性。生态学家开始采用相机陷阱记录昆虫,并提出了计算机视觉算法作为大规模数据处理的有效手段。然而,野外昆虫监测面临独特的挑战,如长尾数据分布、极其相似的类别以及显著的分布偏移。AMI数据集由两部分组成:AMI-GBIF,包含来自公民科学平台和博物馆的约250万张图像;AMI-Traps,包含来自全球自动化相机陷阱的2893张图像,标注了52948只昆虫。该数据集为细粒度昆虫识别提供了首个大规模机器学习基准,推动了生态学和计算机视觉领域的交叉研究。
当前挑战
AMI数据集在解决昆虫识别问题时面临多重挑战。首先,昆虫种类繁多且形态相似,导致细粒度分类任务极为复杂。其次,野外环境中的图像质量参差不齐,昆虫可能被遮挡、模糊或处于运动状态,增加了识别的难度。此外,数据分布的长尾特性使得少数类别的识别尤为困难。在数据集构建过程中,研究人员还面临标注成本高、专家资源有限的问题。尽管自动化相机陷阱能够捕捉大量昆虫图像,但手动标注这些图像需要昆虫学家的专业知识,且不同地区的昆虫种类差异显著,导致标注工作难以跨区域复用。这些挑战使得AMI数据集在推动昆虫监测技术发展的同时,也为计算机视觉领域提出了新的研究方向。
常用场景
经典使用场景
AMI数据集在昆虫识别领域的经典使用场景主要集中在大规模昆虫物种的自动监测与分类。通过结合来自公民科学平台和博物馆的2.5百万张图像,以及来自全球多个地区的自动相机陷阱图像,AMI数据集为研究人员提供了一个全面的基准,用于训练和评估计算机视觉算法在野外环境中的表现。该数据集特别适用于处理长尾数据分布、类间相似度高以及分布偏移等挑战,使得其在生态学和生物多样性研究中具有重要价值。
衍生相关工作
AMI数据集衍生了许多相关研究工作,尤其是在计算机视觉和生态学的交叉领域。基于该数据集,研究人员开发了多种先进的图像分类模型,如ResNet50、ConvNeXt和ViT等,并提出了混合分辨率数据增强技术(MixRes),显著提升了模型在野外环境中的泛化能力。此外,AMI数据集还推动了昆虫相机陷阱技术的发展,促进了自动监测系统的优化与普及。这些工作不仅提升了昆虫识别的准确性,还为未来的生物多样性监测和保护提供了新的技术手段。
数据集最近研究
最新研究方向
近年来,AMI(Automated Monitoring of Insects)数据集在昆虫识别与生态监测领域引起了广泛关注。随着全球昆虫多样性的急剧下降,生态学家和计算机视觉研究者开始合作,利用自动化相机陷阱和深度学习技术来监测昆虫种群。AMI数据集作为首个大规模昆虫识别基准数据集,涵盖了来自全球多个地区的昆虫图像,尤其是通过自动化相机陷阱捕获的野外图像。该数据集不仅挑战了计算机视觉领域的长尾数据分布、类间相似性以及跨地理区域的泛化能力,还为生态学家提供了宝贵的工具,帮助他们更好地理解昆虫种群的变化趋势。当前的研究方向主要集中在如何通过数据增强技术(如混合分辨率增强)提升模型在野外条件下的泛化能力,以及如何利用迁移学习从高质量的人类拍摄图像中学习,并将其应用于低质量的相机陷阱图像。这些研究不仅推动了昆虫监测技术的发展,也为全球生物多样性保护提供了新的解决方案。
相关研究论文
- 1Insect Identification in the Wild: The AMI Dataset魁北克人工智能研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



