MammalNet
收藏arXiv2023-06-01 更新2024-06-21 收录
下载链接:
https://mammal-net.github.io
下载链接
链接失效反馈官方服务:
资源简介:
MammalNet是由阿卜杜拉国王科技大学等多个机构合作创建的大型哺乳动物视频数据集,包含18,346个视频,总计539小时,涵盖17个目、69个科和173个哺乳动物类别。数据集通过科学分类法对哺乳动物进行分类,并专注于12种高级动物行为的研究,如狩猎和喂养幼崽。创建过程中,研究团队采用了半自动的众包方法进行视频收集和标注,确保数据的质量和多样性。MammalNet的应用领域包括动物行为识别和理解,旨在解决大规模生态监测中的挑战,如动物识别和行为检测。
MammalNet is a large-scale mammalian video dataset co-created by King Abdullah University of Science and Technology (KAUST) and multiple other institutions. It contains 18,346 videos totaling 539 hours of footage, covering 17 orders, 69 families, and 173 mammalian taxa. The dataset adopts scientific taxonomic methods to classify mammals, and focuses on research into 12 types of advanced animal behaviors such as hunting and feeding offspring. During the dataset's development, the research team utilized a semi-automated crowdsourcing approach for video collection and annotation to ensure the quality and diversity of the data. Applications of MammalNet span animal behavior recognition and understanding, aiming to address challenges in large-scale ecological monitoring, including animal identification and behavior detection.
提供机构:
阿卜杜拉国王科技大学
创建时间:
2023-06-01
搜集汇总
数据集介绍

构建方式
在野生动物监测与计算机视觉交叉领域,MammalNet的构建遵循了严谨的生态学与数据科学原则。其核心构建流程始于一个基于维基百科科学分类的哺乳动物分类体系,涵盖了17个目、69个科及173个可识别类群。研究团队从国家地理等权威来源收集了约800个哺乳动物物种,并依据行为生态学文献,定义了觅食、繁殖、卫生、争斗及维持等五大类共12种高阶动物行为。视频数据通过组合动物名称与行为关键词在YouTube平台进行检索与下载,随后采用半自动化的众包策略进行质量过滤与验证。为确保标注可靠性,每个视频由至少三名经过资格测试的亚马逊众包工人进行动物与行为存在性验证,仅全数通过的视频得以保留。对于行为定位任务,由五名工人独立标注目标行为的起止时间帧,并通过完全链接算法对多个标注进行聚类与融合,以生成稳定的时间边界,最终形成了包含18,346个原始视频(总计539小时)及20,033个经裁剪行为片段的数据集。
特点
MammalNet的显著特征在于其规模、科学严谨性与任务导向的设计。作为当前最大的动物行为视频基准,其数据量约为先前最大数据集的十倍,为大规模行为研究提供了坚实基础。数据集严格遵循生物学分类学体系进行动物标注,支持从进化视角探索行为模式,并确保了未来可扩展的标准化协议。区别于以往专注于原子动作的数据集,MammalNet聚焦于生态学家更为关注的高阶复合行为,如狩猎、育幼等,这些行为由多个基本动作构成,更具生态研究价值。此外,数据集首次在动物行为领域同时支持分类与检测任务,不仅提供修剪后的行为片段用于标准识别,还保留了原始未修剪视频并标注了行为发生的时间区间,从而能够支撑行为时序定位这一更具挑战性的研究。数据分布呈现典型的长尾特性,这真实反映了自然界与视频平台中物种与行为出现频率的不均衡,为模型在真实场景下的泛化与零样本学习能力提供了检验平台。
使用方法
MammalNet为计算机视觉与计算生态学社区设立了三个核心基准任务,以系统评估模型性能。首先是标准动物与行为分类任务,在经裁剪的行为视频片段上,模型需同时或分别预测视频中出现的哺乳动物类别及其表现的主要行为。数据集按7:1:2的比例划分为训练、验证和测试集,并依据类别频率划分为“多”、“中”、“少”三个子集,以细致评估模型在长尾分布下的表现。其次是组合式少样本动物与行为识别任务,旨在模拟现实世界中难以获取大量标注样本的场景。该任务通过精心设计的数据划分,考察模型将已见动物或行为的知识迁移至未见或少见组合上的能力,为零样本与少样本学习研究提供了理想测试床。最后是行为检测任务,模型需要在未修剪的完整视频中,定位并识别出目标行为发生的具体时间区间。该任务采用平均精度均值作为评估指标,并设置了多个时间交并比阈值,全面衡量模型在时序定位上的准确性。通过这三个层次递进的任务,研究者可利用MammalNet推动从基础识别到复杂时空理解的全方位算法进展。
背景与挑战
背景概述
在生态学与计算机视觉交叉领域,大规模动物行为视频数据集的构建对于推动自动化野生动物监测与保护研究至关重要。MammalNet数据集由阿卜杜拉国王科技大学(KAUST)等机构的研究团队于2023年创建,旨在解决现有动物行为数据集在规模、分类体系和行为定义上的局限性。该数据集围绕生物学哺乳动物分类学构建,涵盖17个目、69个科和173个哺乳动物类别,并标注了12种常见的高层次动物行为。通过提供超过1.8万个视频、总计539小时的标注数据,MammalNet首次实现了在生态学基础上进行大规模动物行为分析,为物种识别与行为理解的联合研究建立了新的基准。
当前挑战
MammalNet所应对的核心领域挑战在于实现大规模、细粒度的哺乳动物识别与高层次行为理解。具体而言,其需要解决长尾分布下稀有类别识别困难、跨物种行为特征迁移,以及在未修剪视频中精准定位行为时序片段等难题。在数据集构建过程中,研究团队面临多重挑战:从网络视频检索中需过滤卡通、静态图像及过多人为干扰的内容;依据科学分类学进行标注时,需处理物种级别鉴定的模糊性,从而采用最低可行分类级别;同时,通过众包进行行为边界标注时,需设计高效的质量控制机制以合并多标注者意见,确保时序标注的稳定性与一致性。
常用场景
经典使用场景
在计算机视觉与生态学交叉领域,MammalNet数据集为哺乳动物识别与行为理解提供了大规模视频基准。该数据集通过构建涵盖17个目、69个科和173个哺乳动物类别的生物分类体系,并标注12种常见高级行为(如狩猎、梳理),支持动物识别与行为分析的独立及联合研究。其经典使用场景包括训练和评估深度学习模型在细粒度动物分类、长尾分布场景下的行为识别能力,以及探索零样本和少样本迁移学习在生态学中的应用潜力。
解决学术问题
MammalNet解决了以往动物行为数据集中存在的关键学术问题:缺乏基于生物分类学的系统标注、数据规模有限且物种覆盖狭窄,以及缺少时间局部化行为检测任务。该数据集通过提供539小时的大规模视频数据,支持标准动物与行为分类、组合式少样本识别及行为检测三大基准任务,推动了细粒度识别、长尾分布学习和跨物种行为迁移等研究方向的发展,为生态学中的自动化监测提供了可扩展的计算基础。
衍生相关工作
基于MammalNet数据集,研究者已开展多项经典衍生工作,主要集中在改进视频理解模型以适应生态数据的特殊性。例如,采用SlowFast、I3D、C3D及MViT V2等先进架构进行动物与行为的联合识别,并探索在Kinetics等人类行为数据集上的预训练迁移效果。同时,针对行为检测任务,ActionFormer、TAGS和CoLA等时序定位方法被引入以定位未修剪视频中的行为片段,推动了跨领域模型在生态视频分析中的适应与优化。
以上内容由遇见数据集搜集并总结生成



