AV-CIL-FFIA

Name: AV-CIL-FFIA
Creator: 英国萨里大学视觉、语音和信号处理中心(Centre for Vision, Speech and Signal Processing, University of Surrey)
Published: 2025-04-21 23:24:34
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

https://github.com/FishMaster93/AV-CIL-FFIA

下载链接

链接失效反馈

官方服务：

资源简介：

AV-CIL-FFIA数据集是由英国萨里大学等研究机构创建的，旨在为音频视觉分类增量学习在鱼 feeding强度评估中的应用提供首个全面的数据集。该数据集包含了6种不同鱼类在真实水产养殖环境中的81932个标记音频和视频片段，用于捕捉鱼类在不同 feeding强度下的音频和视觉特征。数据集的创建是为了促进针对水产养殖中鱼类 feeding行为监测系统的适应性和鲁棒性的研究。

The AV-CIL-FFIA dataset was developed by research institutions including the University of Surrey (UK) to provide the first comprehensive benchmark dataset for the application of audio-visual classification incremental learning in fish feeding intensity assessment. This dataset contains 81,932 labeled audio and video segments of six distinct fish species in real-world aquaculture environments, designed to capture the audio and visual characteristics of fish across varying feeding intensities. The dataset is constructed to facilitate research on the adaptability and robustness of fish feeding behavior monitoring systems deployed in aquaculture settings.

提供机构：

英国萨里大学视觉、语音和信号处理中心(Centre for Vision, Speech and Signal Processing, University of Surrey)

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

AV-CIL-FFIA数据集的构建采用了多模态数据采集方法，在真实水产养殖环境中收集了六种不同鱼类的摄食行为数据。研究团队使用高清摄像头（25fps，1920×1080分辨率）和水听器（256kHz采样频率）同步采集了81,932个标记的视听片段，每个片段包含2秒的音频和对应视频。数据采集系统部署于4m×2m×3m的标准养殖池，摄像头距水面2米以捕捉鱼类活动，水听器浸入水中记录摄食声学特征。所有样本均由专业水产技术人员根据摄食强度分为'无'、'弱'、'中'、'强'四个等级进行人工标注，并通过随机划分形成训练集（70%）、验证集（10%）和测试集（20%）以确保模型评估的鲁棒性。

特点

该数据集的核心特点体现在三个方面：多模态互补性、物种行为多样性和真实环境复杂性。音频模态能有效捕捉浑浊水体中的摄食声学特征，视频模态则提供空间行为上下文，二者形成互补；涵盖的六种鱼类（罗非鱼、黑鲈等）在相同摄食强度下展现出独特的视听特征，如红罗非鱼在1024-2048Hz频段具有显著声能集中，而太阳鱼则表现出宽频带能量分布；数据集保留了真实养殖环境中的挑战性因素，包括水面反射泡沫、水体浊度变化及环境噪声，为模型鲁棒性测试提供了真实场景。数据统计分析显示，不同物种的视听特征差异系数达0.43-0.67，凸显跨物种知识迁移的挑战。

使用方法

该数据集专为音频-视觉类增量学习设计，支持三种典型应用范式：单模态基准测试可分别评估音频或视觉特征的有效性；多模态融合研究可通过交叉注意力机制整合双向特征，其中音频特征引导的时空注意力权重（公式2）与视觉引导的声谱增强（公式3）构成核心方法；类增量学习实验需遵循既定物种顺序（红罗非鱼→罗非鱼→玉鲈→黑鲈→莲鲤→太阳鱼），每阶段仅用当前物种数据更新模型，测试时评估所有已学物种性能。配套提供的HAIL-FFIA框架实现方案包含分层原型管理系统（公式10-12）和动态模态平衡机制（公式16-18），建议初始学习率1e-3、特征扩展维度2048、每强度等级5个原型（存储仅需原始数据0.1%空间）作为基准参数配置。

背景与挑战

背景概述

AV-CIL-FFIA数据集由英国萨里大学CVSSP中心、天津大学、北京科技大学和中国农业大学等机构的研究团队于2025年联合发布，旨在解决水产养殖中鱼类摄食强度评估（FFIA）的多模态增量学习问题。该数据集包含81,932条标注的视听片段，涵盖6种常见养殖鱼类在真实环境下的摄食行为，首次将原型增强与动态模态平衡机制引入类增量学习框架。作为首个专为水产养殖设计的视听增量学习基准，其创新性地将通用摄食强度模式与物种特异性特征解耦，为数字化渔业管理提供了关键技术支持，推动了多模态环境监测系统的适应性研究。

当前挑战

该数据集主要面临两大挑战：在领域问题层面，需克服水下环境噪声、光照变化及水面反射对多模态数据质量的干扰，同时解决新鱼种引入导致的灾难性遗忘问题；在构建过程中，需平衡高维度视听数据的存储压力与特征表征完整性，精确标注不同鱼种的细微摄食行为差异（如罗非鱼与太阳鱼的声谱特征差异达37.6dB），并实现跨物种知识迁移。此外，真实养殖场景中的泡沫干扰和水体浊度变化（最高达NTU 120）对视觉模态的有效采集构成了显著挑战。

常用场景

经典使用场景

AV-CIL-FFIA数据集在水产养殖领域具有广泛的应用价值，尤其是在鱼类摄食强度评估（FFIA）方面。该数据集通过多模态（音频和视觉）数据捕捉不同鱼类的摄食行为，为研究人员提供了一个标准化的基准。其经典使用场景包括训练和评估多模态机器学习模型，特别是在类增量学习（CIL）任务中，模型需要在不遗忘先前学习知识的情况下适应新的鱼类物种。

衍生相关工作

AV-CIL-FFIA数据集已经催生了一系列相关研究，尤其是在多模态类增量学习领域。例如，基于该数据集提出的HAIL-FFIA框架，通过分层表示学习和动态模态平衡机制，显著提升了模型性能。其他衍生工作还包括探索不同的原型管理策略和跨模态注意力机制，以进一步优化增量学习效果。

数据集最近研究