Wild Bee Dataset
收藏数据集概述
数据集简介
该数据集旨在支持自动昆虫监测系统的开发,这些系统能够识别昆虫物种而不需要捕捉和杀死昆虫。由于昆虫物种的多样性和稀有性,构建高质量的昆虫图像数据集具有挑战性。数据集的构建涉及从iNaturalist网站下载昆虫图像,并通过人工标注进行细分。
数据获取
数据集中的图像通过脚本webscraper_inat.py从iNaturalist下载。用户需指定目标文件夹、最大图片数量和物种的URL索引。例如,Anthidium manicatum的索引可通过搜索其名称并复制URL末尾的数字获得。
数据标注
从下载的图像中,选择了大约30个样本每物种(称为mini dataset),并在Label Studio中进行进一步标注。mini dataset最终包含726张图像,涵盖25种蜜蜂。标注包括昆虫主要身体部位的分割,如头部、胸部和腹部。
数据预处理
通过脚本create_metafiles_mini.py和create_metafiles_all.py,从Label Studio下载的json文件创建了类似CUB200格式的元文件。这些文件包括类名、图像文件、图像类标签、身体部位及其位置的映射。
训练与验证
使用预训练的ResNet50模型在完整数据集上进行训练和交叉验证,mini dataset作为测试集。报告的测试集准确率为0.78(top-1)和0.95(top-3),与现有先进细粒度模型相竞争。
初步XAI实验
在无人类参与的初步实验中,使用了多种XAI方法(如saliency maps)来评估模型的解释性。实验包括使用分割掩码作为模型解释的基准,并通过像素翻转和蒙特卡洛 dropout 评估解释的忠实度。
基于概念的原型最近邻(CoProNN)
开发了一种新的基于概念的后验XAI方法,利用生成文本到图像模型(如Stable Diffusion)生成高级概念图像,通过kNN解释模型预测。通过用户研究验证了该方法的有效性,解释帮助用户更准确地分类蜜蜂并更容易发现错误的模型预测。

- 1Towards ML Methods for Biodiversity: A Novel Wild Bee Dataset and Evaluations of XAI Methods for ML-Assisted Rare Species Annotations柏林应用科技大学 · 2022年



