BIRB
收藏arXiv2023-12-13 更新2024-06-21 收录
下载链接:
https://github.com/google-research/perch
下载链接
链接失效反馈官方服务:
资源简介:
BIRB是一个专注于生物声学信息检索的综合基准数据集,由康奈尔大学鸟类学实验室创建。该数据集包含超过10,000种鸟类的录音,这些录音来自全球几乎所有栖息地,环境多样,背景声音条件复杂。BIRB数据集的创建旨在通过机器学习模型研究模型泛化能力,特别是在分布转移和新的类别泛化方面的能力。数据集的应用领域包括生物多样性监测和环境保护,旨在解决模型在实际环境中的可靠性和泛化问题。
BIRB is a comprehensive benchmark dataset focused on bioacoustic information retrieval, created by the Cornell Lab of Ornithology. This dataset contains recordings of over 10,000 bird species, collected from nearly all habitats across the globe, featuring diverse environments and complex background acoustic conditions. The BIRB dataset was developed to study model generalization capabilities via machine learning models, particularly regarding distribution shift and novel category generalization. Its application domains include biodiversity monitoring and environmental protection, aiming to address the issues of model reliability and generalization in real-world environments.
提供机构:
康奈尔大学鸟类学实验室
创建时间:
2023-12-13
搜集汇总
数据集介绍

构建方式
BIRB数据集的构建基于多种公开可用的数据集,包括Xeno-Canto项目和来自特定生态监测计划的被动录音声景数据集。Xeno-Canto项目提供了超过10,000种鸟类的75万条录音,而声景数据集则包含数百小时的专家标注。数据集的构建涉及对物种分类法的差异进行调和,确保标签在各种输入格式中的一致性,并从文件级标签/注释中提取固定长度的片段。此外,声景数据集中的时间框注释被转换为固定长度的标签,以便进行评估。
特点
BIRB数据集的特点在于其复杂性和现实性。它模拟了真实世界中的各种挑战,包括分布偏移、小样本学习能力和对类别不平衡和标签偏移的鲁棒性。该数据集的构建旨在推动模型泛化研究,并支持在处理大量未标记音频野外数据方面的实践需求。BIRB数据集的基准任务是一个检索任务,其中模型首先使用上游数据集进行训练,然后在评估过程中使用少量标注的鸟鸣声(示例)来检索和排序给定语料库中所有实例(鸟鸣声)。
使用方法
使用BIRB数据集时,首先需要使用上游数据集(如Xeno-Canto)来训练或获得一个预训练的嵌入模型。然后,使用该模型对评估数据集中的查询物种和候选语料库进行嵌入。评估数据集由多个数据集和类别组成,包括人工稀有类别、来自不同录音设置的类别、未在上游数据集中出现的类别以及来自不同地理区域的额外声景数据集。评估任务包括使用少量示例检索鸟鸣声,并使用ROC-AUC指标评估检索结果的质量。
背景与挑战
背景概述
在机器学习领域,模型泛化能力是评估模型实用性的关键指标。BIRB数据集,即生物声学信息检索泛化基准,是由Google Research和康奈尔大学鸟类学实验室等研究人员合作创建的,旨在评估模型在面对不同训练和部署条件时的泛化能力。该数据集主要关注鸟类鸣叫声的检索,利用大型公民科学语料库中的焦点录音进行训练,并在被动录制的数据集中检索鸟类鸣叫声。BIRB数据集的创建填补了生物声学领域泛化研究的空白,为推动机器学习模型在现实世界条件下的鲁棒性和泛化能力提供了重要的数据基础。
当前挑战
BIRB数据集面临着诸多挑战。首先,该数据集需要解决领域问题,即从焦点录音训练模型后,在被动录音数据集中检索鸟类鸣叫声。其次,在构建过程中,BIRB数据集也面临着挑战,包括解决分布偏移问题,例如训练数据和测试数据之间的标签偏移和协变量偏移,以及小样本学习能力,即在仅有少量实例的情况下对新型鸟类鸣叫声进行检索。此外,BIRB数据集还面临着类别不平衡和标签偏移的挑战,以及处理大规模、高质量、区域性的声景数据集的挑战。
常用场景
经典使用场景
BIRB 数据集旨在评估信息检索在生物声学中的泛化能力,特别是在鸟类鸣叫声的检索方面。该数据集为研究人员提供了一个平台,以测试他们的模型在不同条件下的泛化能力,例如在存在分布偏移或对新类别的泛化。BIRB 数据集的一个经典使用场景是训练一个模型,使其能够从被动记录的数据集中检索鸟类的鸣叫声,这些数据集由大型公民科学语料库提供,用于训练。这涉及使用表示学习技术将鸟类的鸣叫声嵌入到一个高维空间中,并使用最近邻搜索来检索与查询鸣叫声最相似的其他鸣叫声。
实际应用
BIRB 数据集的实际应用场景包括保护濒危动物、早期检测入侵物种、测量广泛的生物多样性和监测政策和干预措施的影响。生物声学为自然世界提供了一个极其丰富的画面,但由于重叠的鸣叫声、物种内变异、背景噪声和稀缺的训练数据等因素,其研究具有挑战性。BIRB 数据集为研究人员提供了一个平台,以开发能够解决这些挑战的模型,并推动生物声学领域的应用。例如,研究人员可以使用 BIRB 数据集来训练一个模型,以识别特定地区的新物种或监测特定物种的鸣叫行为。这些应用对于环境保护和生物多样性研究具有重要意义。
衍生相关工作
BIRB 数据集衍生了与信息检索、域适应和少样本学习相关的一系列经典工作。例如,研究人员可以使用 BIRB 数据集来开发新的表示学习方法,以改进模型对鸟类鸣叫声的检索性能。此外,BIRB 数据集还可以用于评估域适应方法的有效性,以帮助模型适应不同的声学环境。最后,BIRB 数据集还可以用于研究少样本学习方法,以帮助模型从少量实例中学习新物种的鸣叫声。这些衍生工作有助于推动机器学习模型在生物声学领域的应用,并为环境保护和生物多样性研究做出贡献。
以上内容由遇见数据集搜集并总结生成



