NIPS4Bplus
收藏arXiv2018-11-14 更新2024-06-21 收录
下载链接:
https://doi.org/10.6084/m9.figshare.6798548
下载链接
链接失效反馈官方服务:
资源简介:
NIPS4Bplus是由伦敦玛丽女王大学数字音乐中心等机构创建的第一个丰富注释的鸟鸣音频数据集。该数据集包含约5000条录音,涵盖了61种鸟类及其声音,以及详细的时序注释。数据集的创建过程涉及在法国和西班牙的多个地点收集录音,并使用专业的工具进行筛选和标注。NIPS4Bplus主要用于训练和评估自动鸟鸣检测和分类模型,解决生态研究中的物种识别和监测问题。
NIPS4Bplus is the first richly annotated birdsong audio dataset created by institutions including the Digital Music Center of Queen Mary University of London and other relevant organizations. This dataset contains approximately 5,000 audio recordings, covering 61 bird species and their vocalizations, along with detailed temporal annotations. The creation of this dataset involved collecting recordings at multiple sites across France and Spain, followed by filtering and annotation using professional tools. NIPS4Bplus is primarily used for training and evaluating automated birdsong detection and classification models, to address species identification and monitoring issues in ecological research.
提供机构:
伦敦玛丽女王大学数字音乐中心
创建时间:
2018-11-06
搜集汇总
数据集介绍

构建方式
NIPS4Bplus 数据集的构建方式独具匠心,它首先收集了来自法国和西班牙七个地区的录音,这些录音包含了鸟类的鸣叫声及其活跃物种标签。录音设备采用了 SM2BAT 和 SMX-US 麦克风,在日出后 30 分钟开始录制,持续 3 小时。录音设备设定了 6 dB 信噪比触发器,仅在触发器激活时采集录音。收集到的录音经过 SonoChiro 工具筛选,保留了含有鸟类鸣叫声的录音,并进行了分层随机抽样以最大化标签数据集的多样性。最终,数据集包含了 687 个训练文件和 1000 个测试文件,每个文件包含 1 到 6 个标签,标签涵盖了 61 种不同的鸟类及其鸣叫声。
特点
NIPS4Bplus 数据集的特点在于其丰富的注释信息。它不仅包含了鸟类的鸣叫声和活跃物种标签,还包含了事件的时间注释。这些时间注释由人工使用 Sonic Visualiser 工具生成,提供了事件开始和结束的时间戳,以及事件的持续时间。数据集中的标签包括鸟类的鸣叫声、叫声和鼓声,以及与这些鸟类共存的 7 种昆虫和一种两栖动物。此外,数据集中还包含了一些仅包含背景噪音的录音,这些录音可以用于模型训练时的调优。
使用方法
NIPS4Bplus 数据集的使用方法多样。它可以用于训练和评估自动化的鸟类鸣叫声检测和分类模型,也可以用于评估仅使用音频标签或无注释训练的方法。例如,可以用于训练多实例学习(MIL)损失函数,以实现音频事件检测;或者与网络训练相结合,在多任务学习(MTL)环境下进行音频标记。此外,数据集还可以用于训练鸟类物种音频事件检测和分类模型,评估不同数据集上训练的模型的可迁移性,以及进行其他生态声学任务的研究。
背景与挑战
背景概述
在鸟类鸣叫声的自动检测与分类领域,由于缺乏完全标注的录音数据,相关研究方法的发展已经接近瓶颈。为了解决这一问题,Morfi等人于2018年创建了NIPS4Bplus数据集。该数据集由包含鸟类鸣叫录音组成,录音中标注了活动物种标签以及为其获取的时序标注。NIPS4Bplus数据集的创建由伦敦玛丽女王大学数字音乐中心(C4DM)的机器听觉实验室牵头,并得到了法国国家自然历史博物馆、法国国家科研中心、波兰克拉科夫AGH科技大学以及法国图卢兹大学等机构的研究人员的共同参与。该数据集的创建旨在为鸟类鸣叫声的检测与分类提供高质量的数据支持,并推动生态声学任务的发展,如鸟类种群监测、物种分类等。
当前挑战
NIPS4Bplus数据集的构建过程中,研究人员面临了诸多挑战。首先,鸟类鸣叫声的多样性及其组合方式的复杂性使得详细的标注工作变得耗时且费力。其次,在大多数栖息地中存在的噪声,以及许多鸟类社区中可能存在的重叠鸣叫声,进一步增加了标注的难度。此外,尽管获取音频标签的时间成本较低,但缺乏时序标注的音频标签限制了模型对事件检测和分类的准确性。因此,NIPS4Bplus数据集的创建不仅需要解决上述问题,还需要确保数据集的多样性和实用性,以满足生态声学领域的多样化需求。
常用场景
经典使用场景
NIPS4Bplus数据集是首个全面标注的鸟类鸣唱音频数据集,它包含了鸟类鸣唱录音及其活跃物种标签,以及为其获得的时序标注。该数据集可用于各种生态声学任务,如训练模型以监测鸟类种群、进行物种分类、鸟类鸣唱检测和分类等。NIPS4Bplus的数据集经典使用场景是用于训练和评估自动化的鸟类鸣唱检测和分类模型,这些模型可以预测鸟类鸣唱的时序位置和出现次数。
解决学术问题
NIPS4Bplus数据集解决了当前鸟类鸣唱检测和分类研究中存在的标注数据不足的问题。传统的鸟类鸣唱检测和分类方法没有预测任何关于事件时序位置的信息,而NIPS4Bplus提供了丰富的时序标注,这对于训练能够预测时序标注的自动化方法至关重要。此外,该数据集还解决了生态数据标注耗时且劳动密集的问题,因为收集音频标签比收集详细的时序标注更为快速和容易。
衍生相关工作
NIPS4Bplus数据集衍生了多个相关研究工作,例如,使用NIPS4Bplus数据集进行多实例学习(MIL)损失函数的音频事件检测训练和评估,以及将音频标签和多任务学习(MTL)网络结合以进行音频事件检测和标签。此外,NIPS4Bplus数据集还被用于评估不同数据集上训练的方法的泛化能力,为生态声学研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



