five

BioDCASE2026_Bird_Counting

收藏
Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/Emreargin/BioDCASE2026_Bird_Counting
下载链接
链接失效反馈
官方服务:
资源简介:
BioDCASE 2026 - 鸟类计数(任务6)数据集是为生物多样性监测中的鸟类数量估计任务而开发的。该数据集包含来自欧洲动物园多物种鸟舍的被动声学录音,共计140,899个音频文件,覆盖6个鸟舍。每个鸟舍包含已知数量的目标鸟类物种及其他共存物种。音频文件为单声道WAV格式,采样率为48 kHz,时长约3秒。数据集特别关注三种目标鸟类:大红鹳(Phoenicopterus roseus)、红嘴奎利亚雀(Quelea quelea)和哈达达鹮(Bostrychia hagedash),这些鸟类的种群数量范围从4到161只不等。数据集适用于鸟类数量估计任务,旨在解决在复杂声学环境中(如重叠鸣叫、环境噪声等)的种群估计挑战。数据集还提供了完整的物种清单和录音信息元数据,以及基线系统的实现代码。

The BioDCASE 2026 - Bird Counting (Task 6) Dataset is developed for the bird population estimation task within biodiversity monitoring. The dataset comprises passive acoustic recordings collected from multi-species aviaries in European zoos, with a total of 140,899 audio files across 6 aviaries. Each aviary contains known populations of target bird species alongside other co-occurring species. All audio files are in mono WAV format, with a sampling rate of 48 kHz and an approximate duration of 3 seconds. The dataset specifically targets three focal bird species: Greater Flamingo (*Phoenicopterus roseus*), Red-billed Quelea (*Quelea quelea*), and Hadada Ibis (*Bostrychia hagedash*), whose population sizes range from 4 to 161 individuals. This dataset is tailored for bird population estimation tasks, aiming to tackle the challenges of population estimation in complex acoustic scenarios including overlapping vocalizations and ambient noise. Additionally, the dataset provides complete species inventories, recording-related metadata, and implementation code for the baseline system.
创建时间:
2026-03-26
搜集汇总
数据集介绍
main_image_url
构建方式
在生物声学监测领域,获取精确的鸟类种群数量数据对于评估生物多样性至关重要。BioDCASE2026_Bird_Counting数据集通过被动声学监测技术构建,在欧洲多个动物园的鸟舍中部署专业录音设备,于2025年春夏季节进行了连续7至11天的录音采集。为确保数据集的代表性与可管理性,研究者从每个鸟舍的完整录音中精心筛选出2至3个典型日期的音频片段,将其分割为约3秒的非重叠短片段,最终形成了包含140,899个音频文件的开发集,涵盖了6个鸟舍环境。
特点
该数据集聚焦于三种目标鸟类的种群数量估计任务,包括大红鹳、红嘴奎利亚雀和哈达达鹮,其种群数量范围从4只到161只不等,跨越了两个数量级。每个鸟舍中还包含2至12种非目标鸟类,总计28个物种,共同构成了复杂的多物种声学环境。数据集中的所有音频均为单声道WAV格式,采样率为48 kHz,持续时间约3秒,并提供了完整的物种清单和种群数量真实标注。这种设计模拟了野外监测中常见的声学复杂性,如重叠鸣叫、环境噪声以及自然行为变异,为算法开发提供了高度真实的测试平台。
使用方法
研究人员可利用该数据集开发鸟类种群数量估计算法,主要任务是根据短音频片段估计目标物种在特定鸟舍中的个体数量。使用时可借助Hugging Face的`datasets`库直接加载数据流,或通过Git LFS克隆整个数据集进行本地处理。官方提供的基线系统采用两阶段流程:首先使用ARIA集成检测器或BirdNET基检测器进行物种检测,随后提取检测计数统计、时间序列结构及声学指数等特征,最后通过留一法交叉验证拟合物种特定的回归模型。参与者可在此基础上改进模型,以应对群体同步鸣叫、校准数据稀疏以及多物种环境等核心挑战,并通过提交预测结果参与BioDCASE 2026挑战赛的评估。
背景与挑战
背景概述
生物声学监测作为评估生物多样性的关键技术,近年来在生态学研究领域备受关注。BioDCASE2026_Bird_Counting数据集由马斯特里赫特大学的研究团队于2026年创建,旨在通过被动声学记录解决鸟类种群数量估计这一核心科学问题。该数据集聚焦于动物园鸟舍环境,利用已知地面真实种群数量,为开发基于机器学习的鸟类丰度估计算法提供基准数据。其构建不仅推动了生物声学与计算生态学的交叉融合,也为自动化生物多样性监测系统的研发奠定了重要基础。
当前挑战
该数据集旨在解决的领域挑战在于从复杂声学场景中准确估计鸟类个体数量,尤其是面对群体同步鸣叫、多物种声音重叠以及环境噪声干扰时,传统检测方法难以区分个体贡献。在构建过程中,研究团队面临校准数据稀缺的难题,仅有的6个鸟舍数据点要求模型具备强大的小样本泛化能力。同时,目标物种的种群规模跨越两个数量级,从4只到161只不等,这要求估计算法必须适应不同尺度的种群动态,并在多物种共存的声学环境中保持鲁棒性。
常用场景
经典使用场景
在生物声学与生态监测领域,BioDCASE2026_Bird_Counting数据集为鸟类种群数量估计任务提供了基准场景。该数据集通过被动声学监测技术,在动物园鸟舍环境中采集了包含目标物种与非目标物种混合鸣叫的短音频片段。其经典使用场景聚焦于利用机器学习模型,从复杂、重叠的鸟类鸣叫录音中,准确推断出特定鸟类的个体数量,为自动化生物多样性监测提供了标准化的数据基础与评估框架。
解决学术问题
该数据集旨在解决生态学与计算声学交叉领域的核心学术问题,即如何从自然声景中量化生物种群丰度。传统人工调查方法耗时费力且具有侵入性,而该数据集通过提供已知真实种群数量的高质量音频标注数据,使得研究人员能够开发并验证基于音频的自动计数算法。这直接推动了从简单的物种存在检测到精细的个体数量估计这一关键范式转变,为理解种群动态、评估生态系统健康提供了可扩展的计算工具。
衍生相关工作
围绕该数据集,已衍生出若干经典研究工作,主要集中在改进种群估计算法的鲁棒性与泛化能力。例如,基线系统采用了两阶段管道,结合物种检测与回归模型。后续研究探索了利用深度神经网络直接端到端学习音频特征与种群数量的映射关系,或引入时间序列分析与注意力机制来处理鸣叫重叠与同步性问题。这些工作不仅提升了在复杂声学环境下的计数精度,也为更广泛的生物声学丰度估计任务奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作