five

massid45-specimens

收藏
Hugging Face2026-01-15 更新2026-01-16 收录
下载链接:
https://huggingface.co/datasets/annaviklund/massid45-specimens
下载链接
链接失效反馈
官方服务:
资源简介:
MassID45是一个多模态数据集,包含DNA条形码(COI)和两种分辨率的图像:完整批量昆虫样本的图像和这些样本中所有个体标本的图像。本存储库提供了35,586个个体标本的图像和元数据。个体标本的数据可在BOLD上找到,记录集代码为DS-LPEPA22。此HuggingFace数据集使图像更容易批量访问。数据集中的图像分为高分辨率原始图像和缩略图两种,存储在'images/originals'和'images/thumbnails'目录中。元数据包括两个CSV文件,分别记录了标本的详细信息和图像特定信息。

MassID45 is a multimodal dataset encompassing DNA barcodes (COI) and images at two resolutions: images of complete bulk insect samples, as well as images of all individual specimens within these samples. This repository provides images and metadata for 35,586 individual specimens. Data for the individual specimens is accessible on BOLD under the dataset code DS-LPEPA22. This Hugging Face dataset enables easier bulk access to the images. The images in the dataset are categorized into two types: high-resolution original images and thumbnails, which are stored in the 'images/originals' and 'images/thumbnails' directories respectively. The metadata includes two CSV files that respectively record detailed specimen information and image-specific information.
创建时间:
2026-01-09
原始信息汇总

MassID45 Individual Specimens 数据集概述

数据集基本信息

  • 数据集名称:MassID45 Individual Specimens
  • 描述:包含MassID45数据集中单个标本的图像和元数据。
  • 语言:英语
  • 数据规模:10K < n < 100K
  • 样本数量:35,586 个个体标本

数据集内容与结构

图像数据

  • 存储目录images
  • 组织方式:图像根据分辨率分为两个子目录,并进一步按批量样本ID(fieldid)组织。
    • images/originals:单个标本的高分辨率图像。
    • images/thumbnails:相同标本的低分辨率缩略图。
  • 文件路径格式images/[resolution]/[fieldid]/[processid].jpg
  • 文件路径示例images/originals/G1P4N6/LPUAE001-22.jpg

元数据

  • 存储目录metadata
  • 包含文件
    • metadata/records.csv:包含单个标本的详细元数据。
    • metadata/images.csv:包含相同标本的图像特定元数据。
  • 来源说明:元数据通过BOLD API收集,未经修改。

数据来源与关联信息

  • 原始数据记录集:数据可在BOLD系统上通过记录集代码 DS-LPEPA22 访问。
  • 相关论文:预印本《A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level》提供了数据集的详细信息。链接:https://arxiv.org/abs/2507.06972
  • 相关代码库:预处理和训练/推理代码可在GitHub获取。链接:https://github.com/uoguelph-mlrg/MassID45

数据访问方式

克隆仓库

  • 完整克隆命令git clone https://huggingface.co/datasets/annaviklund/massid45-specimens/
  • 排除大文件克隆命令GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/annaviklund/massid45-specimens/

直接访问图像

  • URL格式https://huggingface.co/datasets/annaviklund/massid45-specimens/resolve/main/images/[resolution]/[fieldid]/[processid].jpg
  • URL示例https://huggingface.co/datasets/annaviklund/massid45-specimens/resolve/main/images/originals/G1P4N6/LPUAE001-22.jpg
搜集汇总
数据集介绍
main_image_url
构建方式
在生物多样性研究领域,多模态数据集的构建为深入理解物种多样性提供了关键支撑。MassID45个体标本数据集通过整合DNA条形码与高分辨率图像,系统采集了来自批量昆虫样本的35,586个个体标本。数据源自BOLD系统的DS-LPEPA22记录集,利用其API获取未修改的元数据,并按照样本标识符分层组织图像文件,形成了包含原始图像与缩略图的双分辨率结构。
特点
该数据集的核心特点体现在其多模态与高组织性的设计。它不仅提供了每个标本的DNA条形码序列,还配备了两种分辨率的视觉图像,原始图像保留细节信息,缩略图则便于快速浏览。图像与元数据均通过标准化的路径格式关联,并严格依据批量样本标识进行目录划分,确保了数据的一致性与可追溯性。这种结构为跨模态的物种识别与分析奠定了坚实基础。
使用方法
研究人员可通过克隆Git仓库或直接访问URL来获取数据集。为高效管理数据,克隆时可选择跳过大型文件以节省本地存储。数据集中的图像与CSV格式的元数据可直接用于训练计算机视觉模型或进行生物信息学分析。具体的文件路径遵循明确规则,使得批量下载与程序化处理变得简便,支持在生物多样性监测、物种分类及多模态学习等研究中的直接应用。
背景与挑战
背景概述
在生物多样性监测与昆虫分类学领域,传统方法往往依赖形态学鉴定或单一的分子标记,难以高效处理大规模样本。MassID45数据集由圭尔夫大学机器学习研究组等机构于2025年创建,旨在通过整合DNA条形码(COI)与多分辨率图像,构建一个多模态昆虫生物多样性资源。该数据集的核心研究问题聚焦于如何利用计算机视觉与基因组学技术,实现从批量样本到个体标本的自动化识别与分类,从而推动宏生态学与生物信息学的交叉融合,为物种鉴定、种群动态研究提供关键数据支撑。
当前挑战
该数据集致力于解决昆虫生物多样性评估中的核心挑战,即如何在大规模、多物种混合的样本中,实现快速、准确的个体级物种鉴定。这一领域问题面临物种形态相似性高、图像背景复杂以及DNA条形码数据与视觉特征对齐困难等难点。在构建过程中,研究人员需克服批量样本分解、个体标本图像采集与标注的一致性,以及多模态数据(高分辨率图像、缩略图与COI序列)的标准化整合等挑战,确保数据质量与可重复性。
常用场景
经典使用场景
在生物多样性监测与昆虫分类学领域,MassID45-specimens数据集为研究者提供了大规模、多模态的个体昆虫标本图像与DNA条形码数据。其经典使用场景在于支持基于计算机视觉的昆虫自动识别与分类模型训练,通过高分辨率图像与元数据的结合,使得机器学习算法能够学习昆虫的形态特征,从而实现高效、准确的物种鉴定,显著提升了生物多样性调查的自动化水平。
解决学术问题
该数据集有效解决了传统昆虫分类研究中依赖专家人工鉴定、耗时费力且难以规模化的问题。通过提供标准化的图像与DNA条形码配对数据,它促进了计算生物学与生态学的交叉研究,使得大规模物种多样性分析、形态特征量化比较以及DNA条形码与视觉特征的关联研究成为可能,为生物多样性监测提供了可靠的数据基础。
衍生相关工作
围绕MassID45-specimens数据集,已衍生出多项经典研究工作,主要集中在多模态学习与生物信息学交叉领域。例如,基于该数据集的预训练模型开发,实现了图像与DNA序列的联合表征学习;此外,相关研究还探索了利用深度学习进行昆虫物种分类、形态特征提取以及生物多样性热点预测,推动了人工智能在生态学中的深入应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作