five

MassID45

收藏
arXiv2025-07-10 更新2025-08-15 收录
下载链接:
https://github.com/uoguelph-mlrg/MassID45
下载链接
链接失效反馈
官方服务:
资源简介:
MassID45数据集是由瑞典和芬兰的马尔塞斯陷阱收集的45个节肢动物样本(主要是昆虫)组成,每个样本都包含DNA代谢组学数据和一张或更多未分类的批量图像。此外,还提供了样本级生物量测量,以支持基于特征的分析。为了便于机器学习分类器的训练,我们还提供了每个样本在分拣成单个标本后的单个级图像和DNA条形码序列(总计36,402个)。利用人工智能辅助标注和基于DNA的样本特异性分类,我们为批量图像中的每个节肢动物提供了详细的分割掩码和分类学标注。

The MassID45 dataset comprises 45 arthropod specimens (mostly insects) collected using Malaise traps in Sweden and Finland. Each specimen contains DNA metabolomics data and one or more unclassified bulk images. Specimen-level biomass measurements are also provided to enable feature-based analyses. To facilitate the training of machine learning classifiers, we additionally supply individual specimen-level images and DNA barcode sequences (totaling 36,402) generated after sorting each bulk sample into individual specimens. Leveraging AI-assisted annotation and DNA-based specimen-specific classification, we have provided detailed segmentation masks and taxonomic annotations for every arthropod present in the bulk images.
提供机构:
瑞典农业大学生态学系, 加拿大圭尔夫大学, 向量研究所, 赫尔辛基大学基尔皮斯亚尔维生物站, 瑞典农业大学野外森林研究单位, 瑞典农业大学生态学系
创建时间:
2025-07-10
搜集汇总
数据集介绍
main_image_url
构建方式
MassID45数据集构建于45个批量节肢动物样本之上,主要采集自瑞典和芬兰地区2021年部署的Malaise陷阱。每个样本均包含DNA元条形码数据及一至多张未分类的批量图像,同时提供样本级别的生物量测量数据。通过AI辅助工具支持的人工标注流程,研究者对批量图像执行了两项任务:为每个节肢个体创建分割掩膜,并为超过17000个标本分配分类学标签。此外,数据集还涵盖了每个样本经分类后全部个体标本的图像和DNA条形码序列(总计36402个),构建过程融合了分子生物学与计算机视觉技术。
特点
该数据集的核心特点在于其多模态特性,首次实现了批量样本水平与个体标本水平的分子与影像数据整合。其创新性体现在:1) 通过样本特异性DNA分类体系约束标注标签集,提升分类准确性;2) 包含17937个精确标注的节肢动物实例分割掩膜,其中76.5%属于微小物体检测范畴;3) 提供生物量等性状数据支持生态分析。数据覆盖23个目、92个科的节肢动物,84.1%的标本可标注至目级或更高分类阶元,为微小密集物体检测和细粒度分类任务设立了新基准。
使用方法
数据集支持三种主要应用范式:1) 作为实例分割基准,评估模型对微小密集物体的检测性能,推荐采用512×512像素分块与60%重叠率的SAHI推理策略;2) 用于多模态学习,可联合DNA元条形码数据提升分类器性能;3) 支持弱监督学习研究,利用样本特异性分类体系构建层级标签。研究者提供了PyTorch模型检查点及预处理代码,建议对非标准成像协议的批量图像需进行迁移学习。数据以COCO和TORAS双格式存储,包含RAW与JPEG两种图像版本。
背景与挑战
背景概述
MassID45数据集由瑞典农业科学大学、赫尔辛基大学和圭尔夫大学等机构的研究团队于2025年创建,旨在解决昆虫生物多样性监测中的关键问题。该数据集结合了DNA条形码和高分辨率成像技术,提供了45个批量昆虫样本的多模态数据,包括未分类的批量图像和36402个单独标本的分子与影像数据。其创新性在于将分子分类的精确性与图像数据的丰度估算相结合,为大规模生态研究提供了高效工具。该数据集通过AI辅助标注系统,实现了对17000余个标本的精确分割和分类标注,推动了微小物体检测和实例分割技术在生态学中的应用。
当前挑战
MassID45数据集面临的核心挑战包括:1) 领域问题方面,需解决高密度微小昆虫样本的分类难题,昆虫体积小且形态特征有限,传统图像分类方法难以准确识别;2) 构建过程中,批量样本的高密度分布导致个体分割困难,标本重叠和图像模糊问题显著。此外,整合分子数据与图像数据时存在技术障碍,DNA条形码与图像特征的跨模态对齐需要复杂算法支持。数据集还面临标注一致性问题,不同分类等级间的标签置信度差异需要特殊处理机制。
常用场景
经典使用场景
MassID45数据集在生态学和计算机视觉交叉领域具有重要应用价值,其经典使用场景包括训练自动分类器对混合昆虫样本进行实例分割和分类。该数据集通过结合DNA条形码和高分辨率图像数据,为研究人员提供了丰富的多模态信息,使得在保持样本原始状态的情况下进行昆虫群落分析成为可能。数据集特别适用于处理高密度、小尺寸昆虫对象的检测任务,为生态调查中的快速物种鉴定和数量统计提供了可靠的技术支持。
解决学术问题
MassID45数据集有效解决了生态监测中的两个关键学术问题:一是克服了传统DNA宏条形码技术难以估算绝对丰度的局限,通过图像分析实现精确的个体计数;二是突破了现有图像分类方法仅适用于单个标本的瓶颈,开发出适用于混合样本的实例分割算法。该数据集通过提供样本级别和个体级别的多模态数据,为研究昆虫群落组成、物种多样性及环境变化影响建立了标准化评估框架,显著提升了大规模生态调查的效率和准确性。
衍生相关工作
基于MassID45数据集已衍生出多项重要研究工作,主要包括:1)开发针对微小对象的改进型实例分割架构,如结合Transformer的Mask DINO模型在昆虫检测中达到43.5%的AP50:5:95性能;2)提出基于SAHI的切片推理方法,有效解决高分辨率图像中小对象检测的GPU内存限制问题;3)建立DNA-图像多模态融合的分类框架,在未知物种属级分类准确率达80%以上。这些工作推动了计算机视觉中微小对象检测、开放世界识别等方向的发展,同时为生态学研究提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作