five

Gharaee/BIOSCAN_1M_Insect_Dataset

收藏
Hugging Face2024-06-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Gharaee/BIOSCAN_1M_Insect_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
BIOSCAN_1M昆虫数据集为研究人员提供了关于昆虫的信息。每条记录包含四个主要属性:DNA条形码序列、条形码索引号(BIN)、生物分类学排名注释和RGB图像。DNA条形码序列展示了核苷酸的排列,BIN作为林奈名称的替代,提供了以基因为中心的生物分类,生物分类学排名注释基于进化关系对生物进行层次分类,RGB图像则展示了来自16个最密集的昆虫目的原始图像。数据集还展示了类分布和类不平衡的情况,这是昆虫群落中的固有特征。

The BIOSCAN_1M Insect Dataset provides researchers with information about insects. Each record contains four core attributes: DNA barcode sequence, Barcode Index Number (BIN), taxonomic rank annotations, and RGB images. The DNA barcode sequence displays the arrangement of nucleotides; BIN, as an alternative to Linnaean names, provides gene-centric biological classification. The taxonomic rank annotations perform hierarchical classification of organisms based on evolutionary relationships, while the RGB images consist of raw specimens from the 16 most species-rich insect orders. The dataset also exhibits class distribution and class imbalance, which are inherent characteristics of insect communities.
提供机构:
Gharaee
原始信息汇总

BIOSCAN_1M Insect Dataset

数据集概述

BIOSCAN-1M Insect Dataset 提供了关于昆虫的信息,每个记录包含以下四个主要属性:

  1. DNA 条形码序列
  2. 条形码索引号 (BIN)
  3. 生物分类等级注释
  4. RGB 图像

I. DNA 条形码序列

提供的 DNA 条形码序列展示了核苷酸的排列:

  • 腺嘌呤 (A): 红色
  • 胸腺嘧啶 (T): 蓝色
  • 胞嘧啶 (C): 绿色
  • 鸟嘌呤 (G): 黄色

示例序列:

TTTATATTTTATTTTTGGAGCATGATCAGGAATAGTTGGAACTTCAATAAGTTTATTAATTCGAACAGAATTAAGCCAACCAGGAATTTTTA ...

II. 条形码索引号 (BIN)

BIN 作为林奈名称的替代,提供了一种以遗传为中心的生物分类方法,强调遗传代码在分类学中的重要性。

示例 BIN:

BOLD:AER5166

III. 生物分类等级注释

分类群等级注释根据进化关系将生物分层分类,根据共享特征和遗传相关性将物种分组。

IV. RGB 图像

来自 BIOSCAN-1M Insect Dataset 中 16 个最密集的目中的原始昆虫图像。每个图像下方的数字标识了每个类别中的图像数量,并清楚地展示了 BIOSCAN-1M Insect Dataset 中的类别不平衡程度。

图像示例: <div align="center"> <table> <!-- First Row --> <tr> <td align="center" ><img src="images/Diptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Hymenoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Coleoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Hemiptera.jpg" width="400px" height="400px" class="image"></td> </tr> <tr> <td align="center"><strong>Diptera: 896,234</strong></td> <td align="center"><strong>Hymenoptera: 89,311</strong></td> <td align="center"><strong>Coleoptera: 47,328</strong></td> <td align="center"><strong>Hemiptera: 46,970</strong></td> </tr> <!-- Second Row --> <tr> <td align="center" ><img src="images/Lepidoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Psocodea.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Thysanoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Trichoptera.jpg" width="400px" height="400px" class="image"></td> </tr> <tr> <td align="center"><strong>Lepidoptera: 32,538</strong></td> <td align="center"><strong>Psocodea: 9,635</strong></td> <td align="center"><strong>Thysanoptera: 2,088</strong></td> <td align="center"><strong>Trichoptera: 1,296</strong></td> </tr> <!-- Third Row --> <tr> <td align="center" ><img src="images/Orthoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Blattodea.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Neuroptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Ephemeroptera.jpg" width="400px" height="400px" class="image"></td> </tr> <tr> <td align="center"><strong>Orthoptera: 1,057</strong></td> <td align="center"><strong>Blattodea: 824</strong></td> <td align="center"><strong>Neuroptera: 676</strong></td> <td align="center"><strong>Ephemeroptera: 96</strong></td> </tr> <!-- Fourth Row --> <tr> <td align="center" ><img src="images/Dermaptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Archaeognatha.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Plecoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Embioptera.jpg" width="400px" height="400px" class="image"></td> </tr> <tr> <td align="center"><strong>Dermaptera: 66</strong></td> <td align="center"><strong>Archaeognatha: 63</strong></td> <td align="center"><strong>Plecoptera: 30</strong></td> <td align="center"><strong>Embioptera: 6</strong></td> </tr> </table> </div>

类别分布

BIOSCAN-1M Insect Dataset 中的类别分布和类别不平衡。图像展示了类别不平衡是昆虫群落中的一个固有特征。

搜集汇总
数据集介绍
main_image_url
构建方式
在生物多样性研究领域,大规模昆虫数据的整合对物种鉴定与分类至关重要。BIOSCAN-1M数据集通过系统化采集与标注流程构建而成,其核心数据来源于全球范围内的昆虫样本,每个样本均包含DNA条形码序列、条形码索引编号、生物分类学注释以及高分辨率RGB图像。数据整合过程依托国际生物条形码计划,确保了样本的遗传信息与形态学特征的对应关系,并通过自动化与人工校验相结合的方式,对超过百万条记录进行了标准化处理,形成了多模态、结构化的昆虫资源库。
使用方法
在生物信息学与计算机视觉交叉研究中,该数据集支持多种分析范式。研究者可通过HuggingFace平台或Git命令直接克隆数据集仓库,利用其多模态结构进行迁移学习或细粒度分类任务。DNA序列可用于训练基因特征提取模型,RGB图像适用于视觉Transformer或卷积网络的预训练。分类任务可基于条形码索引编号或传统分类学层级展开,尤其适合探索类别不平衡下的学习策略。数据集亦支持跨模态对齐研究,例如建立遗传序列与形态特征的关联模型,为自动化物种鉴定系统开发奠定基础。
背景与挑战
背景概述
在生物多样性监测与保护领域,昆虫作为地球上物种最丰富的类群,其快速准确的鉴定一直是生态学与分类学研究的核心难题。BIOSCAN-1M昆虫数据集由Zahra Gharaee等研究人员于2023年构建,并发表于《Advances in Neural Information Processing Systems》会议。该数据集整合了超过一百万条昆虫记录,每条记录均包含DNA条形码序列、条形码索引号、生物分类学注释以及RGB图像四类关键信息,旨在通过多模态数据融合推动基于人工智能的物种自动识别技术发展。这一大规模数据集的建立,不仅为全球生物多样性评估提供了重要资源,也为计算机视觉、深度学习与生物信息学的交叉研究开辟了新的路径,显著提升了昆虫分类的自动化水平与可扩展性。
当前挑战
BIOSCAN-1M数据集致力于解决昆虫物种自动识别与分类这一复杂领域问题,其面临的核心挑战在于如何有效整合异质多模态数据——即如何将DNA序列信息与视觉图像特征进行协同建模,以克服单一数据源在物种鉴别中的局限性。此外,数据集构建过程中亦遭遇显著困难:一方面,昆虫类群在自然界中分布极不均衡,导致数据集中各类别样本数量存在严重偏差,例如双翅目昆虫样本数量远超其他目级类群,这种固有的类别不平衡性对机器学习模型的训练与评估构成了严峻考验;另一方面,大规模昆虫样本的采集、DNA测序与图像标准化处理涉及跨机构协作与质量控制,确保数据的一致性与准确性成为一项艰巨任务。
常用场景
经典使用场景
在生物多样性信息学领域,BIOSCAN-1M数据集为昆虫物种的自动识别与分类提供了关键资源。该数据集整合了DNA条形码序列、条形码索引号、生物分类学注释以及RGB图像,构建了一个多模态数据框架。研究者通常利用这一框架,通过迁移学习或微调预训练的视觉Transformer、ResNet等模型,实现对昆虫物种的高精度分类。这种多模态融合方法不仅提升了分类的准确性,还为处理大规模、类别不平衡的生物图像数据提供了标准化流程。
解决学术问题
该数据集有效应对了生物多样性研究中物种鉴定效率低下、数据分散的挑战。通过提供统一的DNA条形码与图像配对数据,它支持了基于深度学习的物种自动识别系统的开发,缓解了传统分类学对专家经验的过度依赖。其意义在于推动了计算生物学的交叉融合,为全球生物多样性评估建立了可扩展的数据基准,促进了生物信息学与计算机视觉领域的协同创新。
实际应用
在实际应用中,BIOSCAN-1M数据集为环境监测、农业害虫防控以及生物保护提供了技术支撑。例如,在生态调查中,研究人员可利用该数据集训练的模型快速识别野外采集的昆虫样本,加速生物多样性编目进程。在农业领域,该系统有助于实时监测害虫种群动态,为精准防治提供决策依据。此外,海关检疫部门也可借助此类技术加强外来入侵物种的检测与管控。
数据集最近研究
最新研究方向
在生物多样性监测与保护领域,BIOSCAN-1M昆虫数据集凭借其融合DNA条形码序列、条形码索引号、生物分类学注释及RGB图像的多模态特性,正推动计算生物学与计算机视觉的交叉研究前沿。当前研究聚焦于利用视觉Transformer与ResNet等先进架构,通过迁移学习与微调策略,应对大规模昆虫物种分类中的类别不平衡挑战。该数据集关联全球生物多样性基因组学计划,助力于物种快速鉴定与生态评估,为应对生物多样性丧失这一全球热点议题提供了关键数据支撑,其影响深远,标志着人工智能技术在宏生态学与系统分类学中的应用迈入了新阶段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作