five

AquaMonitor

收藏
arXiv2025-05-28 更新2025-05-30 收录
下载链接:
https://huggingface.co/datasets/mikkoim/aquamonitor, https://github.com/mikkoim/aquamonitor
下载链接
链接失效反馈
官方服务:
资源简介:
AquaMonitor数据集是一个用于实际生活水生无脊椎动物多样性监测的多模态多视角图像序列数据集。该数据集包含来自两个年度监测的所有标本的图像,以及DNA序列、干重和尺寸测量数据,使其成为迄今为止最大的生物学多模态数据集之一。数据集旨在解决实际监测中的挑战,如开放集识别、分布偏移和极端类别不平衡问题。AquaMonitor数据集的创建和应用将有助于提高水生生物多样性监测的自动化识别方法,这对于许多国家定期进行的水质评估是一个重要组成部分。

The AquaMonitor dataset is a multimodal, multi-view image sequence dataset for real-world aquatic invertebrate diversity monitoring. It contains images of all specimens from two annual monitoring campaigns, alongside DNA sequences, dry weight and dimensional measurement data, making it one of the largest biological multimodal datasets to date. The dataset is designed to address challenges in real-world monitoring, including open-set recognition, distribution shift and extreme class imbalance. The development and application of the AquaMonitor dataset will help advance automated recognition methods for aquatic biodiversity monitoring, which is a critical component of regular water quality assessments conducted by numerous countries.
提供机构:
芬兰环境研究所, 德国杜伊斯堡-埃森大学水生生态系统研究中心, 德国杜伊斯堡-埃森大学水与环境研究中心, 芬兰于韦斯屈莱大学信息工程学院
创建时间:
2025-05-28
搜集汇总
数据集介绍
main_image_url
构建方式
AquaMonitor数据集通过标准化的水生无脊椎生物监测程序构建,采用BIODISCOVER设备对样本进行多视角图像序列采集。样本来自芬兰50个采样点的22个湖泊,涵盖两年的常规监测数据。每个样本通过双垂直Basler相机在1cm×1cm×3.5cm的比色皿中拍摄50fps的同步序列,最终获得44,854个图像序列(总计270万张图像),覆盖43,189个标本和152个类群。数据集还包含DNA条形码(1,358个标本)、生物量及尺寸测量(1,494个标本)等多模态数据,并严格记录采样时间、地点等元数据。
特点
该数据集具有三大核心特征:1)真实监测场景的代表性,完整保留监测中遇到的类群不平衡、分布偏移等现实挑战;2)创新的多视角序列数据,每个标本配备同步的双视角动态图像;3)丰富的多模态标注,包括分层分类标签(89种鉴定到物种级)、生物量、DNA序列及地理时空信息。其152个类群呈现极端长尾分布(63个类样本量<5),且测试集包含24个训练集未见的类群,为开放集识别研究提供真实场景。
使用方法
数据集支持三类基准任务:1)监测基准(跨年分布偏移评估),使用2021年数据训练、2022年测试;2)分类基准(42个充足样本类别的细粒度分类);3)小样本学习基准(47个稀有类别的少样本识别)。用户可通过HuggingFace平台获取数据,利用提供的五折交叉验证划分开展实验。多视角序列建议采用对数平均融合策略,生物量预测任务推荐使用Swin-T架构迁移学习。
背景与挑战
背景概述
AquaMonitor数据集由芬兰环境研究所、杜伊斯堡-埃森大学水生生态系统研究中心以及于韦斯屈莱大学信息技术学院的研究团队于2025年发布,是首个基于常规环境监测采集的大型水生无脊椎动物计算机视觉数据集。该数据集包含43,189个样本的270万张多视角图像序列,并整合了DNA条形码、生物量及体型测量等多模态数据,旨在解决水生生物多样性监测中标准化数据匮乏的核心问题。其创新性地采用欧盟水框架指令的标准化采样协议,真实反映了淡水生态系统的物种分布状况,为计算机视觉技术在生态监测领域的应用建立了重要基准。
当前挑战
AquaMonitor面临三大核心挑战:1) 领域应用层面需解决开放集识别、极端类别不平衡和跨年度分布偏移等现实监测难题;2) 数据构建过程中遭遇样本成像覆盖率不足(2022年仅72.65%)、稀有类样本稀缺(63个类别少于5个样本)以及多模态数据对齐等技术瓶颈;3) 生物分类学挑战包括水生无脊椎动物细微形态差异识别(如蜉蝣目与毛翅目幼虫的区分)以及非重叠类别的跨年度监测评估。这些挑战突显了真实生态环境监测场景与实验室理想条件的显著差异。
常用场景
经典使用场景
AquaMonitor数据集作为首个大规模水生无脊椎生物多样性监测的多模态多视角图像序列数据集,其经典使用场景聚焦于评估计算机视觉方法在真实监测环境中的性能。该数据集通过标准化采集协议获取的43,189个标本的270万张图像,为研究者提供了模拟实际监测挑战(如开放集识别、分布偏移和极端类别不平衡)的基准平台。多视角同步成像序列和丰富的元数据(包括采样时间、地点及DNA/生物量信息)使其特别适用于跨年度生物多样性变化的纵向研究。
实际应用
该数据集直接支持欧盟水框架指令(WFD)下的水质评估实践,通过自动化识别蜉蝣目、毛翅目等指示物种,大幅降低传统显微镜检的人力成本。芬兰国家湖泊监测项目的应用案例表明,其多视角成像系统可整合至现有实验室工作流,实现90%以上标本的自动化成像。生物量子集(1,494个标本的干重/尺寸测量)为生态系统功能研究提供了关键参数,而DNA子集(1,358条COI序列)则助力分子生物学与计算机视觉的交叉验证。
衍生相关工作
AquaMonitor已催生多个重要研究方向:1) 基于BIODISCOVER成像设备的扩展数据集FINBenthic2和Høye-2022;2) 跨模态学习框架如CLIBD(结合视觉与DNA特征);3) 长尾分类新算法在监测基准上的性能验证。其多视角序列设计启发了类似TreeOfLife-10M等项目的多视角融合策略,而开放集检测任务则推动了能量评分(Energy Score)等OOD检测方法在生态领域的适配。数据集定义的三类基准任务(监测/分类/小样本)已成为评估生物多样性监测算法的标准协议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作