Wild Bee Dataset

Name: Wild Bee Dataset
Creator: 柏林应用科技大学
Published: 2022-06-15 20:48:05
License: 暂无描述

arXiv2022-06-15 更新2024-07-24 收录

下载链接：

https://github.com/TeodorChiaburu/beexplainable

下载链接

链接失效反馈

官方服务：

资源简介：

Wild Bee Dataset是由柏林应用科技大学创建的一个包含约30,000张野生蜜蜂图像的数据集，这些图像来自iNaturalist数据库，主要用于支持昆虫监测和物种分类研究。数据集涵盖了25种常见的德国野生蜜蜂，其中4种特别难以区分，因此被合并为一个类别。创建过程中，数据集经过了严格的标注，包括身体部位的分割掩码。该数据集旨在通过深度学习技术辅助生物学家进行罕见物种的标注，从而提高对生物多样性的理解和保护。

The Wild Bee Dataset was developed by Berlin University of Applied Sciences and Technology. It comprises approximately 30,000 images of wild bees sourced from the iNaturalist database, and is primarily designed to support research on insect monitoring and species classification. The dataset covers 25 common species of German wild bees, with 4 particularly difficult-to-distinguish species merged into one single category. During its curation, the dataset underwent rigorous annotation, including segmentation masks for bee body parts. This dataset aims to assist biologists in annotating rare species via deep learning technologies, thereby enhancing the understanding and conservation of biodiversity.

提供机构：

柏林应用科技大学

创建时间：

2022-06-15

原始信息汇总

数据集概述

数据集简介

该数据集旨在支持自动昆虫监测系统的开发，这些系统能够识别昆虫物种而不需要捕捉和杀死昆虫。由于昆虫物种的多样性和稀有性，构建高质量的昆虫图像数据集具有挑战性。数据集的构建涉及从iNaturalist网站下载昆虫图像，并通过人工标注进行细分。

数据获取

数据集中的图像通过脚本webscraper_inat.py从iNaturalist下载。用户需指定目标文件夹、最大图片数量和物种的URL索引。例如，Anthidium manicatum的索引可通过搜索其名称并复制URL末尾的数字获得。

数据标注

从下载的图像中，选择了大约30个样本每物种（称为mini dataset），并在Label Studio中进行进一步标注。mini dataset最终包含726张图像，涵盖25种蜜蜂。标注包括昆虫主要身体部位的分割，如头部、胸部和腹部。

数据预处理

通过脚本create_metafiles_mini.py和create_metafiles_all.py，从Label Studio下载的json文件创建了类似CUB200格式的元文件。这些文件包括类名、图像文件、图像类标签、身体部位及其位置的映射。

训练与验证

使用预训练的ResNet50模型在完整数据集上进行训练和交叉验证，mini dataset作为测试集。报告的测试集准确率为0.78（top-1）和0.95（top-3），与现有先进细粒度模型相竞争。

初步XAI实验

在无人类参与的初步实验中，使用了多种XAI方法（如saliency maps）来评估模型的解释性。实验包括使用分割掩码作为模型解释的基准，并通过像素翻转和蒙特卡洛 dropout 评估解释的忠实度。

基于概念的原型最近邻（CoProNN）

开发了一种新的基于概念的后验XAI方法，利用生成文本到图像模型（如Stable Diffusion）生成高级概念图像，通过kNN解释模型预测。通过用户研究验证了该方法的有效性，解释帮助用户更准确地分类蜜蜂并更容易发现错误的模型预测。

搜集汇总

数据集介绍

构建方式

Wild Bee Dataset 是一个从 iNaturalist 数据库中抓取的野生蜜蜂图像数据集，其构建过程中选择了大约 30k 张标记为研究级别的图像，即至少有两名 iNaturalist 观察者对这些昆虫物种达成共识。该数据集专注于德国最常见的 25 个物种，但由于其中四个物种在图像上难以区分，因此将它们合并为一个 Bombus lucorum 复合类别，从而将标签总数减少到 22 个。从下载的图像中，每个类别筛选出约 30 张图像进行进一步标注，形成一个小型数据集或测试集，而剩余的图像作为训练验证集。

使用方法

使用该数据集时，研究者可以将其分为训练集和验证集，采用 ResNet50 神经网络模型进行训练。模型在测试集上取得了与现有先进模型相当的分类成绩。此外，数据集还支持可解释性人工智能（XAI）方法的评估，以便为罕见物种的标注任务提供支持。研究者可以通过比较不同的 XAI 方法，选择最适合人类专家的方法。

背景与挑战

背景概述

Wild Bee Dataset是由柏林应用科学大学的研究团队创建的，旨在应对昆虫数量急剧减少的生态问题。该数据集于近期发布，包含从iNaturalist数据库中精心挑选的大约3万张野生蜜蜂图像，这些图像均被标记为研究等级，并由至少两名观察者确认物种。研究团队专注于25种在德国最常见的蜜蜂，并对其中四个难以区分的类别进行了合并。该数据集的核心研究问题是昆虫分类，特别是细粒度分类的挑战。此外，数据集还探索了XAI方法在辅助罕见物种注释方面的应用。该数据集的发布对于相关领域的研究具有重要意义，为昆虫监测和机器学习模型的训练提供了宝贵资源。

当前挑战

在构建Wild Bee Dataset的过程中，研究人员面临了多个挑战。首先，由于细粒度分类的内在难度，以及昆虫分类学的高复杂度，构建一个能够准确分类昆虫种类的模型极具挑战性。其次，罕见物种的图像注释需要专业知识，而这类专家资源稀缺，这增加了数据集构建的难度。此外，选择合适的XAI方法以辅助专家进行注释任务也是一个挑战，因为不同的XAI方法在定位和忠实度指标上的表现各不相同，需要通过细致的评价来确定最佳方法。

常用场景

经典使用场景

Wild Bee Dataset 是一个针对野蜂图像的深度学习数据集，其经典使用场景在于为机器学习模型提供高质量的训练数据，从而实现对野蜂种类的精确识别。该数据集通过深度学习模型，如ResNet，能够对野蜂图像进行分类，辅助生物学家在昆虫监测和稀有物种标注的工作中，提高分类的准确性和效率。

解决学术问题

该数据集解决了传统昆虫监测方法中，对野蜂等昆虫种类鉴别难度大、标注工作依赖专业知识且资源稀缺的问题。通过深度学习技术，数据集能够辅助人类专家进行标注，降低对专业知识的依赖，同时提高了标注的速度和准确性。这对于昆虫种群动态监测、稀有物种保护以及生物多样性研究具有重要的学术价值。

实际应用

在实际应用中，Wild Bee Dataset 可用于构建自动化昆虫监测系统，有助于环境保护机构、研究人员和野生动物保护者更好地理解和监测野蜂种群的状况，从而采取有效的保护措施。此外，该数据集的应用还能够推动相关领域的科研进展，例如在智能农业、生态旅游等领域中发挥重要作用。

数据集最近研究