five

MammAlps

收藏
arXiv2025-03-24 更新2025-03-26 收录
下载链接:
https://github.com/eceo-epfl/MammAlps
下载链接
链接失效反馈
官方服务:
资源简介:
MammAlps是由洛桑联邦理工学院创建的一个多模态、多视角野生动物行为监测数据集,包含在瑞士国家公园从9个摄像头陷阱收集的超过14小时的视频和音频,以及8.5小时的个体轨迹密集标注信息。该数据集基于6135个单一动物视频片段,提出了第一个使用音频、视频和场景分割图作为输入的分层、多模态动物行为识别基准,同时还提出了一个面向生态学的多视角、长期事件理解基准,旨在将长期生态事件总结为有意义的生态行为信息。

MammAlps is a multimodal, multi-view wildlife behavior monitoring dataset created by École Polytechnique Fédérale de Lausanne. It contains over 14 hours of video and audio data collected from 9 camera traps in Swiss National Parks, along with 8.5 hours of densely annotated individual trajectory information. Built on 6,135 single-animal video clips, this dataset introduces the first hierarchical, multimodal animal behavior recognition benchmark that uses audio, video and scene segmentation maps as inputs. Additionally, it proposes an ecology-oriented multi-view long-term event understanding benchmark, which aims to summarize long-term ecological events into meaningful ecological behavioral information.
提供机构:
洛桑联邦理工学院(Ecole Polytechnique Fédérale de Lausanne, EPFL)
创建时间:
2025-03-24
搜集汇总
数据集介绍
main_image_url
构建方式
MammAlps数据集通过部署在瑞士国家公园三个不同生态位点的九台相机陷阱进行数据采集,采用多视角同步记录技术获取野生动物行为视频。数据采集周期为六周,覆盖昼夜不同时段,以高分辨率(1920×1080)和30帧/秒的帧率记录。原始视频经过运动触发筛选后,采用MegaDetector进行动物检测和ByteTrack算法实现个体追踪,最终通过人工校正生成带有物种及行为标注的个体轨迹片段。数据预处理包含事件聚合、误报剔除、轨迹校正等步骤,并创新性地为每个相机视角创建了参考场景分割图。
特点
该数据集具有多模态、多视角和层次化标注三大核心特征。包含8.5小时密集标注的动物行为视频、音频及场景分割数据,涵盖5种阿尔卑斯山区典型哺乳动物(马鹿、狍、狐狸、狼、雪兔)的11类高级活动与19种基础动作。其创新性体现在:首次建立野生动物行为的两级层次化标注体系;整合视觉、听觉与环境模态数据;提供三视角同步记录的长时序生态事件(397个事件,14小时素材),包含群体规模、气象条件等生态学关键指标。数据采集严格遵循野外真实场景,包含自然光照变化、遮挡等挑战性条件。
使用方法
数据集支持两种基准任务:B1任务聚焦多模态物种与行为识别,研究者可利用视频片段、音频频谱及场景分割图联合训练模型,解决包含6135个片段的11类活动和19种动作的多标签分类问题;B2任务针对长时序生态事件理解,需从多视角视频中预测物种组成、群体规模及气象条件等宏观指标。官方提供基于VideoMAE架构的多模态融合基线模型,建议采用分层损失权重和类别平衡采样策略。对于长时序任务,推荐使用token merging技术压缩时空特征,并引入相机ID、时间差等位置编码增强多视角关联。数据已按日期划分训练/验证/测试集以确保时序独立性。
背景与挑战
背景概述
MammAlps数据集由瑞士洛桑联邦理工学院(EPFL)的研究团队于2025年创建,旨在通过多视角视频监测技术研究瑞士阿尔卑斯山野生动物的行为模式。该数据集包含来自瑞士国家公园三个不同地点的9台相机陷阱采集的14小时视频数据,涵盖红鹿、狍子、狐狸等5种哺乳动物的11类高级活动和19类基础动作的密集标注。作为首个融合视频、音频和场景分割图的多模态野生动物数据集,MammAlps创新性地提出了分层行为表示体系,填补了欧洲阿尔卑斯山区域生态行为数据的空白,为计算机视觉与行为生态学的交叉研究提供了重要基准。
当前挑战
该数据集面临的核心挑战主要体现在两个方面:在领域问题层面,野生动物行为识别需克服复杂自然环境下的光照变化、遮挡问题以及跨物种行为相似性等难题,例如区分'觅食'与'警戒'等需长期上下文理解的高级活动;在构建层面,多相机时空同步偏差达60秒、夜间红外视频质量不稳定、以及社会性行为标注的主观性(如求偶行为判定)均增加了数据标注难度。此外,长时事件理解任务需从平均8分钟的多视角视频中提取生态语义,对模型的长时记忆与跨模态融合能力提出了更高要求。
常用场景
经典使用场景
MammAlps数据集作为首个聚焦瑞士阿尔卑斯山野生动物的多模态、多视角视频行为监测数据集,其经典应用场景在于推动计算机视觉与行为生态学的交叉研究。通过9个相机陷阱采集的14小时视频与音频数据,结合密集标注的物种、行为和气象信息,该数据集为开发多层次动物行为识别模型提供了理想测试平台。其多视角特性特别适用于研究动物在复杂自然环境中的三维运动模式,而长时程事件标注则支持对动物社会行为(如求偶、追逐)的连续性分析。
衍生相关工作
该数据集已衍生出多个重要研究方向:基于层次化行为标注的时空Transformer模型(如VideoMAE变体)在跨任务联合预测中实现mAP提升4.7%;受其启发的离线令牌合并技术(ToME)被应用于长时程视频理解,将12分钟事件压缩为390个视觉令牌;此外,其多模态框架催生了WildCLIP等视觉-语言模型,通过结合场景语义提升物种识别鲁棒性。相关方法已扩展至灵长类(ChimpACT)和鸟类行为数据集(Visual WetlandBirds)的研究中。
数据集最近研究
最新研究方向
近年来,MammAlps数据集在野生动物行为监测领域引起了广泛关注。该数据集通过多视角视频捕捉瑞士阿尔卑斯山野生动物的行为,结合音频和场景分割信息,为行为生态学和计算机视觉的交叉研究提供了重要资源。前沿研究方向主要集中在多模态行为识别、长期事件理解和跨物种行为分析等方面。特别是在气候变化背景下,该数据集为研究野生动物行为适应性提供了独特视角。其多视角和分层标注的设计,不仅推动了细粒度行为识别算法的发展,也为生态学家提供了分析动物-环境交互的新工具。该数据集的出现填补了欧洲高山地区野生动物视频数据的空白,对全球生物多样性监测和保护具有重要科学价值。
相关研究论文
  • 1
    MammAlps: A multi-view video behavior monitoring dataset of wild mammals in the Swiss Alps洛桑联邦理工学院(Ecole Polytechnique Fédérale de Lausanne, EPFL) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作