AnuraSet

Name: AnuraSet
Creator: 洪堡研究所
Published: 2023-07-12 06:25:21
License: 暂无描述

arXiv2023-07-12 更新2024-06-21 收录

下载链接：

https://github.com/soundclim/anuraset

下载链接

链接失效反馈

官方服务：

资源简介：

AnuraSet是由洪堡研究所等多个机构合作创建的大型多物种数据集，专注于通过被动声学监测（PAM）识别新热带地区的蛙类叫声。该数据集包含27小时的专家标注，涵盖42种不同物种，主要来自巴西的两个生物群系。数据集的创建旨在通过机器学习技术解决蛙类叫声识别的挑战，进而支持保护政策。AnuraSet不仅提供了原始录音，还包括实验设置代码和一个基准模型，用于细粒度分类问题的基线测试。

AnuraSet is a large multi-species dataset developed through collaboration between the Humboldt Institute and multiple other institutions, focusing on identifying anuran calls in the Neotropics via passive acoustic monitoring (PAM). This dataset contains 27 hours of expert-annotated data, covering 42 distinct species, and is primarily sourced from two biomes in Brazil. The dataset was created to address the challenges of anuran call recognition using machine learning techniques, thereby supporting conservation policies. In addition to providing raw audio recordings, AnuraSet also includes experimental setup code and a baseline model for baseline testing of fine-grained classification tasks.

提供机构：

洪堡研究所

创建时间：

2023-07-12

搜集汇总

数据集介绍

构建方式

在生物声学与被动声学监测领域，构建高质量数据集对于推动机器学习模型在物种识别中的应用至关重要。AnuraSet数据集的构建始于2019年至2021年间，在巴西塞拉多和大西洋森林两个生物多样性热点区域，通过部署全向麦克风传感器网络，以每15分钟录制1分钟的采样策略，系统性地采集了自然环境中的无尾目两栖动物鸣叫数据。随后，研究团队采用分层随机抽样方法，从四个监测站点选取了1612段1分钟音频样本，并邀请本地爬虫学与生物声学专家，结合弱标签（基于60秒时间尺度的物种存在与否及鸣叫活动水平）与强标签（精确到秒级的鸣叫时间片段）的双重标注协议，利用Audacity软件进行视觉与听觉的谱图分析，确保了标注的准确性与生态学意义。最终，通过滑动窗口预处理技术，将原始音频转化为93378个3秒样本，并采用迭代分层策略划分训练集与测试集，形成了适用于多标签分类任务的机器学习数据集。

特点

AnuraSet数据集展现了热带声景监测中的独特复杂性与生态代表性。该数据集涵盖了42种新热带无尾目两栖动物，源自5科12属，其样本分布呈现典型的长尾模式，反映了真实物种多样性中常见与稀有物种并存的特点。数据集不仅包含原始音频与精细的时间标注，还引入了鸣叫活动水平的四级分类（基于两栖动物鸣叫指数），从而支持从物种识别到行为分析的多元研究目标。此外，数据集中高度重叠的鸣叫事件、复杂的环境噪声以及跨物种声音共现现象，模拟了真实热带声景的挑战，为开发鲁棒的机器学习模型提供了贴近自然的测试平台。所有数据以CC0许可公开，并附有完整的元数据与预处理代码，确保了研究的可重复性与扩展性。

使用方法

AnuraSet数据集为生物声学中的物种识别问题提供了标准化的基准测试框架。研究者可通过其GitHub仓库获取原始音频、预处理样本及基准模型代码，利用PyTorch框架进行多标签分类任务的实验。数据集的使用通常始于加载预处理的3秒WAV音频样本及其对应的多标签CSV元数据，其中每个样本标注了至多42个物种的存在信息。基准实验采用Mel谱图转换与SpecAugment数据增强策略，并基于ResNet架构进行模型训练与评估，以宏F1分数作为主要性能指标。该数据集特别适用于探索小样本学习、长尾分布处理以及声音分离等前沿机器学习方法，同时其弱标签与强标签的结合为鸣叫活动水平分类等生态学应用提供了可能。通过这一数据集，研究者可推动被动声学监测技术在生物多样性保护与全球变化研究中的实际应用。

背景与挑战

背景概述

AnuraSet数据集诞生于全球生物多样性监测的迫切需求背景下，由来自亚历山大·冯·洪堡生物资源研究所、康奈尔大学鸟类学实验室、坎皮纳斯州立大学等十余家机构的跨学科团队于2023年联合创建。该数据集聚焦于新热带区无尾两栖动物（蛙类）鸣声的被动声学监测，旨在解决因全球变化引发的蛙类声行为变迁这一核心生态学问题。通过采集2019年至2021年间巴西塞拉多与大西洋森林两大生物群系的实地录音，并辅以专家精细标注，AnuraSet提供了涵盖42个物种、累计27小时标注时长的多标签音频数据，为机器学习模型在复杂声景中的物种识别任务确立了首个大规模基准，有力推动了计算生物声学与保护生态学的交叉融合。

当前挑战

AnuraSet所应对的核心领域挑战在于新热带区蛙类鸣声的自动识别，这本质上是一个在高度复杂自然声景中进行的细粒度音频分类问题。具体而言，挑战首先体现在物种样本的极端不平衡分布上，数据呈现典型的长尾特征，稀有物种的有限样本严重制约了分类器的泛化性能。其次，构建过程中的挑战尤为显著：热带声景中频繁存在的生物声与地球声掩蔽、多物种鸣声的高密度重叠（如在8秒内可记录8个物种），导致信号信噪比变异极大；同时，标注工作高度依赖领域专家的听觉与视觉判读，人力成本高昂且难以规模化。此外，数据固有的多标签特性与鸣声活动的生态学意义（如合唱强度分级）相结合，要求模型不仅能识别物种，还需解析鸣声重叠模式并推断行为信息，这对现有机器学习方法提出了超越传统分类范式的更高要求。

常用场景

经典使用场景

在生物声学与生态声学领域，AnuraSet数据集为无源声学监测（PAM）技术提供了关键的研究基准。该数据集主要应用于新热带地区无尾目两栖动物鸣叫的自动识别与分类任务，通过大规模、多物种的野外录音数据，支持机器学习模型在复杂声景下的性能评估与优化。其经典使用场景包括训练和测试深度学习模型，以解决物种鸣叫在时间重叠、背景噪声干扰以及长尾分布等现实挑战下的细粒度分类问题，为生物多样性监测提供了标准化的数据基础。

实际应用

在实际生态保护与监测项目中，AnuraSet数据集具有重要的应用价值。它可直接服务于新热带地区两栖动物群落的长期声学监测项目，通过自动化识别技术替代传统人工监听，大幅提升监测效率与范围。该数据集支持开发用于生物多样性热点地区的智能监测工具，帮助保护机构实时追踪物种分布、种群动态及声行为变化，为评估气候变化、栖息地破碎化等环境压力对两栖动物的影响提供数据支撑。此外，其开源特性鼓励全球研究团队协作，推动保护声学在实际政策制定与生态管理中的落地应用。

衍生相关工作

围绕AnuraSet数据集，已衍生出一系列重要的相关研究工作。在方法论层面，该数据集促进了针对长尾分布问题的算法改进，如类别平衡损失函数、小样本学习及自监督学习策略在生物声学中的适配与验证。同时，其多标签与细粒度识别特性催生了针对声景中信号分离与重叠鸣叫处理的新模型，例如基于深度学习的声源分离网络与混合不变训练方法。在应用生态学方向，AnuraSet为鸣叫活动指数自动分类、物种丰度估算及声行为模式挖掘提供了基准，推动了从单纯物种识别向生态指标定量反演的跨学科研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集