中非灵长类动物发声数据集

Name: 中非灵长类动物发声数据集
Creator: 乌得勒支大学
Published: 2021-01-26 04:21:54
License: 暂无描述

arXiv2021-01-26 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2101.10390v1

下载链接

链接失效反馈

官方服务：

资源简介：

中非灵长类动物发声数据集是由乌得勒支大学在喀麦隆的一个野生动物保护区收集的，旨在训练能够自动分类灵长类动物发声的分类器。该数据集包含四种灵长类动物的发声记录，总计超过10,000条标注数据。数据收集过程中使用了Audiomoth录音设备，记录了32天内的音频数据，总时长达到1112小时。数据集的创建过程包括手动和半自动的标注方法，以提高标注效率。该数据集主要应用于野生动物监测领域，旨在通过自动分类技术提高对灵长类动物种类的识别效率。

The Central African Primate Vocalization Dataset was collected by Utrecht University at a wildlife reserve in Cameroon, with the goal of training classifiers for automatic classification of primate vocalizations. This dataset contains vocal recordings from four primate species, totaling over 10,000 annotated samples. Audiomoth recording devices were used during data collection, capturing audio data over 32 days with a total duration of 1112 hours. The dataset creation process employs both manual and semi-automatic annotation methods to improve annotation efficiency. This dataset is primarily applied in the field of wildlife monitoring, aiming to enhance the efficiency of primate species identification through automatic classification technologies.

提供机构：

乌得勒支大学

创建时间：

2021-01-26

搜集汇总

数据集介绍

构建方式

中非灵长类动物发声数据集的构建源于对热带森林中灵长类动物监测需求的回应。研究团队在喀麦隆的梅富灵长类动物保护区，以半自然环境为背景，利用Audiomoth记录仪对四类灵长类动物（黑猩猩、山魈、红顶白眉猴及长尾猴混合群体）的发声进行采集，总计获取1112小时的音频数据。为提升标注效率，团队开发了一种基于能量与变化检测的半自动标注流程，通过计算特定频段内的功率分布与阈值，自动提取包含发声的音频片段，随后由专家结合频谱图与听觉检查完成精确标注，最终获得超过一万条标注发声记录。

特点

该数据集的核心特点在于其独特的构建背景与挑战性。数据采集于半自然保护区的围栏环境，虽接近自然但存在种间干扰（如山魈录音中混入其他物种的远距离叫声）及人为噪声（犬吠、人声），反映了真实野外监测的复杂性。标注数据分布不均衡，黑猩猩发声占据主导（6652条），而长尾猴群体仅476条，这一特性要求分类算法具备处理不平衡数据的能力。此外，数据集包含多种发声类型，如黑猩猩的咕噜声与尖叫声，其频谱特征差异显著，为分类任务提供了丰富的声学多样性。

使用方法

数据集的使用遵循明确的基准分类流程，适用于自动物种识别系统的开发与评估。研究者首先提取梅尔频率倒谱系数（MFCC）与感知线性预测系数（PLP）及其一阶、二阶动态特征，并通过10种统计函数（均值、标准差、斜率等）生成1140维超音段特征。随后采用核极限学习机（Kernel ELM）作为分类器，在训练集（60%）、验证集（20%）与测试集（20%）的时序划分下进行模型优化。实验设置四类物种分类及五类（含背景噪声）任务，以未加权平均召回率（UAR）为主要评估指标，结果显示四类分类UAR达82%，验证了该方法在自动监测中的潜力。

背景与挑战

背景概述

中非灵长类动物发声数据集由荷兰乌得勒支大学的研究团队于2021年创建，核心研究人员包括Joeri A. Zwerts、Jelle Treep和Heysem Kaya等。该数据集旨在解决热带森林中野生动物监测的瓶颈问题，通过录制喀麦隆野生动物保护区内四种灵长类动物（黑猩猩、山魈、红顶白眉猴和长尾猴）在半自然条件下的发声，为自动化物种分类提供训练数据。研究团队采用Audiomoth录音设备连续采集32天，累计获得1112小时、358GB的音频数据，并利用能量/变化检测的自动标注方法将标注效率提升至10K以上有效发声样本。该数据集在Interspeech 2021计算副语言学挑战赛中公开，为声学监测领域提供了低成本、可复现的基准资源，推动了灵长类动物保护与生态研究的自动化进程。

当前挑战

该数据集面临的核心挑战包括：首先，野外自然森林录音中目标发声密度极低，背景噪声（如风声、虫鸣）显著高于保护区，导致信号-噪声比恶化，尤其对山魈和红顶白眉猴等低频发声物种的检测尤为困难。其次，灵长类动物的发声行为存在性别、年龄及个体间差异，而数据集仅来自有限群体，模型泛化至自然变异时可能失效。此外，构建过程中遭遇了标注效率瓶颈，虽采用半自动压缩方法提升速度，但手动标注仍需专家结合频谱图与听觉判断，且不同物种的声学特性差异（如黑猩猩的尖叫声易重叠）增加了标注一致性挑战。最后，相邻围栏间的声学干扰（如山魈录音中混入其他物种发声）进一步加剧了分类任务的复杂性。

常用场景

经典使用场景

在热带雨林等能见度受限的生态系统中，被动声学监测已成为研究树栖、羞怯或夜行性物种的重要非侵入性手段。中非灵长类动物发声数据集正是在此背景下应运而生，其最经典的使用场景是作为训练和评估自动物种分类器的基准资源。研究者利用该数据集中的黑猩猩、山魈、红顶白眉猴和长尾猴等多种灵长类动物的半自然录音，开发基于声学特征的机器学习模型，以实现对野外物种的精准识别与分类。

实际应用

在实际应用中，该数据集支撑的自动分类系统可部署于热带森林的长期声学监测网络，替代耗时耗力的人工判读。通过持续分析录音中灵长类动物的发声片段，系统能够实时追踪物种分布、种群动态及行为节律，为生物多样性评估与保护行动提供量化依据。此外，这种低成本的监测方案尤其适用于偏远保护区，助力实现对大范围、多物种的常态化生态巡检。

衍生相关工作

基于该数据集，研究团队进一步推动了计算副语言学领域的交叉融合，其衍生工作包括将梅尔频率倒谱系数与RASTA风格感知线性预测倒谱系数相结合的特征工程方案，以及采用核极限学习机的高效分类框架。该数据集还作为INTERSPEECH 2021计算副语言学挑战赛的基准任务发布，激发了多模态声学分析、跨物种迁移学习以及噪声鲁棒性提升等方向的后续探索，促进了声学生态学与机器学习社区的深度协作。

以上内容由遇见数据集搜集并总结生成