BIOSCAN-5M

Name: BIOSCAN-5M
Creator: 圭尔夫大学
Published: 2024-06-18 23:45:21
License: 暂无描述

arXiv2024-06-18 更新2024-06-20 收录

下载链接：

https://github.com/zahrag/BIOSCAN-5M

下载链接

链接失效反馈

官方服务：

资源简介：

BIOSCAN-5M是一个由圭尔夫大学等机构创建的综合性数据集，包含超过500万种昆虫的多模态信息。数据集不仅包括高分辨率显微镜图像和DNA条形码，还提供了关键的注释信息，如分类等级和地理位置。创建过程涉及AI辅助工具和人类专家的结合，确保了数据的准确性和可靠性。该数据集主要应用于昆虫生物多样性的监测和研究，旨在解决物种分类和生态系统稳定性等问题。

BIOSCAN-5M is a comprehensive dataset created by institutions including the University of Guelph and other partner organizations. It holds multimodal information for over 5 million insect species. Apart from high-resolution microscopic images and DNA barcodes, the dataset also provides critical annotation details such as taxonomic ranks and geographic locations. Its development adopted a hybrid workflow combining AI-assisted tools and human experts, which ensures the accuracy and reliability of the data. This dataset is mainly applied to the monitoring and research of insect biodiversity, aiming to solve problems including species classification and ecosystem stability.

提供机构：

圭尔夫大学

创建时间：

2024-06-18

搜集汇总

数据集介绍

构建方式

BIOSCAN-5M数据集的构建基于全球范围内的昆虫生物多样性监测项目，涵盖了超过500万节肢动物标本的多模态信息。数据集的构建过程包括高分辨率显微镜图像的采集、DNA条形码的测序以及地理信息的记录。每个样本都经过详细的分类学标注，包括分类学等级、DNA条形码序列、条形码索引号（BIN）和地理坐标。此外，数据集还通过自动裁剪工具对图像进行预处理，确保每个样本的图像聚焦于昆虫主体，并提供了裁剪后的图像尺寸信息。

特点

BIOSCAN-5M数据集的特点在于其多模态性和大规模性。它不仅包含高分辨率的昆虫图像，还提供了每个样本的DNA条形码序列和地理信息。数据集中的98%样本为昆虫，涵盖了广泛的分类学等级，从门到种均有详细标注。此外，数据集还提供了每个样本的尺寸信息，包括图像中昆虫所占的像素比例和裁剪比例。这些多模态信息为生物多样性研究和机器学习任务提供了丰富的特征。

使用方法

BIOSCAN-5M数据集的使用方法多样，适用于多种机器学习任务。首先，可以基于DNA条形码序列进行物种分类，利用预训练的语言模型（如BarcodeBERT）进行物种和属级别的分类。其次，可以通过自监督学习提取特征嵌入，进行零样本聚类任务，探索未见物种的聚类效果。此外，数据集还支持多模态对比学习，结合图像、DNA条形码和分类学信息，构建共享的嵌入空间，用于细粒度的分类学分类。数据集的代码库和预处理工具也提供了便捷的数据加载和实验设置。

背景与挑战

背景概述

BIOSCAN-5M数据集是由多个研究机构联合创建的一个多模态昆虫生物多样性数据集，旨在为机器学习社区提供一个全面的资源，以支持全球范围内的昆虫生物多样性监测与研究。该数据集由加拿大圭尔夫大学、滑铁卢大学、西蒙菲莎大学等机构的研究人员共同开发，并于2024年发布。BIOSCAN-5M包含了超过500万昆虫标本的多模态信息，包括高分辨率显微镜图像、DNA条形码序列、分类学标签和地理信息。该数据集不仅扩展了现有的基于图像的生物数据集，还通过引入DNA条形码和地理信息，为生物多样性研究提供了新的视角。BIOSCAN-5M的发布推动了机器学习在生物多样性领域的应用，尤其是在物种分类、聚类和多模态学习任务中的表现。

当前挑战

BIOSCAN-5M数据集在构建和应用过程中面临多重挑战。首先，数据集的构建过程中存在采样偏差，主要由于标本采集的地理位置和方法的局限性，导致某些地区的物种样本过于集中，而其他地区的样本则相对稀缺。其次，随着分类学层级的深入，标注数据的数量急剧减少，尤其是在科级以下的分类层级（如属和种），这使得细粒度的分类任务变得更加困难。此外，数据集中存在大量未标注的样本，尤其是在物种层级，这为无监督学习和半监督学习提供了机会，但也增加了模型训练的复杂性。最后，多模态数据的融合与对齐也是一个技术难点，尤其是在图像、DNA条形码和分类学标签之间的跨模态学习任务中，如何有效地利用这些不同模态的信息仍然是一个开放的研究问题。

常用场景

经典使用场景

BIOSCAN-5M数据集在昆虫生物多样性研究中具有广泛的应用场景，尤其是在多模态数据的分类和聚类任务中。该数据集通过结合高分辨率显微镜图像、DNA条形码序列、分类学标签和地理信息，为机器学习模型提供了丰富的输入特征。经典的使用场景包括基于DNA条形码的物种分类、零样本迁移学习任务以及多模态对比学习。这些任务不仅能够提升分类和聚类的准确性，还能够揭示不同数据模态之间的潜在关联，从而为生物多样性监测提供新的视角。

衍生相关工作

BIOSCAN-5M数据集衍生了许多相关的研究工作，尤其是在多模态学习和自监督学习领域。基于该数据集，研究者开发了BarcodeBERT模型，用于DNA条形码的物种分类任务，并在零样本迁移学习和多模态对比学习中取得了显著进展。此外，BIOSCAN-CLIP模型通过结合图像、DNA序列和分类学标签，进一步推动了多模态嵌入空间的研究。这些工作不仅扩展了BIOSCAN-5M数据集的应用范围，还为生物多样性研究中的机器学习方法提供了新的思路和工具。

数据集最近研究