BIODISCOVER

Name: BIODISCOVER
Creator: 芬兰环境研究所
Published: 2024-12-20 20:35:41
License: 暂无描述

arXiv2024-12-20 更新2024-12-24 收录

下载链接：

https://github.com/mikkoim/taxonomist-studio

下载链接

链接失效反馈

官方服务：

资源简介：

BIODISCOVER数据集由芬兰环境研究所创建，用于环境监测中的无脊椎动物图像识别。该数据集包含90380张图像，涵盖24个类别，主要来源于BIODISCOVER设备的图像采集。数据集的创建过程包括使用深度神经网络提取特征嵌入和基于面积的尺寸比较，以识别图像中的异常内容。该数据集主要应用于计算机视觉领域，旨在提高无脊椎动物图像分类的准确性，解决图像数据集中的错误图像问题。

Developed by the Finnish Environment Institute, the BIODISCOVER dataset is intended for invertebrate image recognition in environmental monitoring. This dataset contains 90,380 images spanning 24 categories, which are mainly sourced from image capture via BIODISCOVER equipment. The dataset creation process includes using deep neural networks to extract feature embeddings and area-based size comparison to identify anomalous content in the images. This dataset is primarily applied in the field of computer vision, with the goal of improving the accuracy of invertebrate image classification and resolving the issue of erroneous images within image datasets.

提供机构：

芬兰环境研究所

创建时间：

2024-12-20

搜集汇总

数据集介绍

构建方式

BIODISCOVER数据集的构建基于对无脊椎动物图像的大规模采集，利用BIODISCOVER成像设备自动拍摄多个样本的图像序列。该设备通过在乙醇填充的容器中捕捉样本的图像，从两个垂直角度进行拍摄。数据集包含了90380张图像，涵盖24个类别，并手动标注了406张异常图像，这些异常图像包括气泡、断肢、镊子和误分类等。数据集的构建过程中，每个样本的图像数量被限制在每个摄像角度最多50张，以确保数据的多样性和代表性。

特点

BIODISCOVER数据集的主要特点在于其高质量的图像和多样化的异常样本。数据集中的图像背景相对均匀，适合用于计算机视觉的训练和测试。此外，数据集包含了多种类型的异常图像，如气泡、断肢、镊子和误分类，这些异常图像的多样性为数据集的评估和算法验证提供了丰富的资源。数据集的分层结构（包括样本、标本和分类群）进一步增强了其在不同层次上的分析能力。

使用方法

BIODISCOVER数据集可用于评估和开发数据集管理方法，特别是用于检测和移除异常图像。数据集的特征嵌入和基于尺寸的比较方法可以分别用于检测内容相关的异常和尺寸异常。通过计算图像的特征嵌入并比较其与组内平均嵌入的距离，可以识别出与组内其他图像显著不同的异常图像。此外，基于图像面积的比较方法可以有效检测如断肢等尺寸异常的图像。这些方法可以结合使用，以提高异常检测的准确性和效率。

背景与挑战

背景概述

BIODISCOVER数据集是由芬兰环境研究所、德国杜伊斯堡-埃森大学和芬兰于韦斯屈莱大学的多位研究人员共同创建的，旨在解决无脊椎动物图像数据集的自动化整理问题。随着计算机视觉技术在环境监测中的应用日益广泛，高质量的数据集成为关键。然而，现有的数据整理方法多为临时性且未公开，导致数据质量参差不齐。BIODISCOVER数据集的创建旨在通过特征嵌入和自动尺寸比较的方法，有效整理包含多个相同分类单元或样本的图像数据集，特别是背景相对统一的图像。该数据集的发布不仅为计算机视觉在无脊椎动物分类中的应用提供了基础，还为数据整理方法的评估提供了新的基准。

当前挑战

BIODISCOVER数据集面临的挑战主要集中在数据整理的复杂性和自动化处理的难度上。首先，数据集中可能包含大量错误图像，如气泡、断肢或误分类样本，这些图像的存在会严重影响训练数据的质量。其次，数据整理过程通常需要大量的人工干预，尤其是对于大规模数据集，手动整理耗时且效率低下。此外，如何在不依赖特定数据集训练的情况下，利用预训练的深度神经网络提取有效的特征嵌入，也是一个技术难点。最后，数据集的多样性和背景的复杂性也对整理方法的通用性和鲁棒性提出了更高的要求。

常用场景

经典使用场景

BIODISCOVER数据集的经典使用场景主要集中在无脊椎动物图像的自动分类与数据清洗。该数据集通过使用预训练的深度神经网络提取特征嵌入，并结合图像尺寸比较，能够有效识别和剔除图像中的错误内容，如气泡、断肢和误分类样本。这种方法特别适用于大规模无脊椎动物图像数据集的初步错误检测，为后续的计算机视觉任务提供高质量的训练数据。

衍生相关工作

BIODISCOVER数据集的提出催生了一系列相关研究工作，特别是在无脊椎动物图像的自动分类和数据清洗领域。基于该数据集的研究方法已被应用于其他类似的数据集，如河流生物漂流图像的自动识别。此外，提出的特征嵌入和尺寸比较方法为未来的数据清洗技术提供了新的思路，推动了计算机视觉在生态学中的应用。

数据集最近研究