UrBAN
收藏arXiv2024-06-06 更新2024-06-21 收录
下载链接:
https://doi.org/10.20383/103.0972
下载链接
链接失效反馈官方服务:
资源简介:
UrBAN数据集是由魁北克大学的研究团队创建,专注于城市蜂箱声学和表型分析。该数据集包含2021至2022年间,从蒙特利尔的十个蜂箱中收集的超过2000小时的原始音频数据,以及温度和湿度传感器数据。数据集详细记录了蜂箱检查中的蜜蜂种群变化、蜂王相关状况及整体蜂箱健康状况,特别关注瓦螨感染率和冬季存活率。该数据集旨在通过分析音频特征预测蜂箱种群,解决蜂箱健康监测和预测问题,支持精准养蜂技术的发展。
The UrBAN dataset was developed by a research team from Université du Québec, focusing on acoustic and phenotypic analyses of urban beehives. This dataset includes over 2,000 hours of raw audio data collected from ten beehives located in Montreal between 2021 and 2022, alongside temperature and humidity sensor data. It comprehensively documents changes in honey bee colony populations, queen-related conditions, and overall beehive health status during hive inspections, with special emphasis on varroa mite infection rates and overwintering survival rates. This dataset is designed to predict beehive colony populations via audio feature analysis, address the challenges of beehive health monitoring and prediction, and support the advancement of precision apiculture technologies.
提供机构:
魁北克大学
创建时间:
2024-06-06
搜集汇总
数据集介绍

构建方式
UrBAN数据集源于2021至2022年间在加拿大蒙特利尔一处城市屋顶蜂场进行的系统性采集。研究团队在10个标准Langstroth蜂箱内部署了多模态传感器,每个蜂箱的底层巢框中央位置安装了Beecon温湿度传感器及配套麦克风,以每15分钟记录一次平均温湿度、每30分钟采集一段15分钟时长的48kHz音频(后重采样至16kHz)的方式,累计获取超过2000小时的高质量原始音频。同时,经验丰富的养蜂人每两周进行一次人工巡检,记录蜂群规模(以蜜蜂覆盖度≥70%的巢框数量为代理指标)、蜂王状态、瓦螨侵染率及冬季死亡率等表型数据,并辅以加拿大环境部提供的外部气象数据,构建了涵盖内部环境、声学信号与健康指标的纵向多模态数据集。
特点
该数据集的独特价值在于其大规模、长时间跨度的原始音频与精细表型标签的耦合。相较于现有公开数据集(如Nu-Hive、OSBH)多聚焦于蜂王检测或蜂鸣声识别且样本量有限,UrBAN提供了10个蜂箱连续两年的3171小时原始音频,并同步采集了每15分钟的内部温湿度及135天以上的外部气象数据。其标签体系尤为丰富,涵盖蜂群规模(1至30框蜜蜂的动态变化)、蜂王状态(有王/无王)、瓦螨侵染率(通过酒精冲洗法精确测定)及越冬死亡率(2022年记录20%死亡率),为解析蜂群健康与声学特征间的关联提供了多维验证基础。此外,研究中采用的谱幅度减噪算法及四种特征集(MFCC、LFCC、谱形状描述符、手工特征)的对比验证,凸显了数据预处理对模型性能的显著提升作用。
使用方法
研究者可通过Federated Research Data Repository(DOI: 10.20383/103.0972)公开获取UrBAN数据集,其结构化存储包含inspections_2021.csv、inspections_2022.csv、sensor_2021.csv及weather_2021_2022.csv四个表格文件,以及以“DD-MM-YYYY_HHhMM_HIVE_Tag.wav”命名的原始音频文件夹。推荐使用Python的Pandas库读取标签与传感器数据,Librosa库处理音频文件。数据集支持多种监督学习任务,如基于MFCC特征的随机森林回归可预测蜂群规模(随机划分下MAE为2.05),亦可探索自监督学习(如BYOL-Audio)用于蜂场语音检测等下游应用。GitHub仓库(MuSAELab/UrBAN)提供了从音频增强、特征提取到模型验证的完整代码脚本,便于复现实验与扩展研究。
背景与挑战
背景概述
蜜蜂在维持生态平衡与农业可持续发展中扮演着不可或缺的角色,然而全球范围内蜂群数量的急剧下降对粮食生产构成了严峻威胁。传统蜂箱监测依赖人工目视检查,不仅劳动密集且对蜂群造成干扰,难以实现高频次、连续性的健康评估。为突破这一瓶颈,物联网与声学传感技术被引入精准养蜂领域。在此背景下,由加拿大魁北克大学国立科学研究院、拉瓦尔大学及Nectar Technologies公司于2021至2022年联合创建的UrBAN数据集应运而生。该数据集聚焦于城市蜂箱声学与表型监测,涵盖10个蜂箱、超过2000小时的高质量原始音频、温湿度传感器数据及周期性人工检查记录,包括蜂群种群数量、蜂王状态、瓦螨感染率及冬季死亡率等关键指标,为基于机器学习的蜂群健康预测提供了宝贵的多模态资源。
当前挑战
UrBAN数据集所应对的核心挑战在于:一、蜂群健康监测领域长期缺乏大规模、公开可用的多模态数据,现有数据集如NU-Hive、Buzz等样本量有限或仅提供预处理特征,限制了人工智能模型的泛化能力与深入分析;二、蜂箱环境复杂,音频信号中混杂了环境噪声、人类活动声等干扰,需设计有效的噪声抑制算法,如谱减法,以提升声学特征的可靠性;三、蜂群种群预测任务面临特征选择与模型泛化的难题,尤其是跨蜂箱独立测试时,不同蜂箱间的声学差异导致模型性能显著下降,亟需稳健的特征集与评估框架来应对数据异质性与小样本挑战。
常用场景
经典使用场景
UrBAN数据集的核心应用场景在于利用蜂箱内采集的原始音频、温度与湿度等多模态数据,结合定期人工检查记录(如蜜蜂框架数、蜂王状态、瓦螨感染率及冬季存活率),构建机器学习模型以预测蜂群种群规模。该场景特别强调音频特征(如MFCC、LFCC、频谱形状描述符)在蜂群强度评估中的关键作用,并验证了通过谱减法去除环境噪声后模型性能的提升。数据集的随机划分与蜂箱独立划分两种实验范式,为蜂群声学监测的泛化能力研究提供了标准化基准。
衍生相关工作
UrBAN数据集衍生了一系列开创性工作:在特征工程层面,研究者对比了MFCC、LFCC与手工特征(如频带功率比)在蜂群预测中的效能,并验证了谱减法与自适应噪声估计对模型鲁棒性的增益;在方法学上,推动了自监督学习(如BYOL-Audio)在蜂箱音频表征中的应用,实现了无标签场景下的蜂群状态检测;在跨任务扩展中,该数据集被用于蜂箱内人声检测、瓦螨感染声学标记及冬季存活率早期预测,形成了从基础声学到精准养蜂的技术生态链。
数据集最近研究
最新研究方向
在全球蜂群数量持续下降、精准养蜂技术快速发展的背景下,UrBAN数据集聚焦于城市蜂巢声学与表型特征的深度融合,为蜂群健康监测提供了前所未有的多模态数据支撑。该数据集收录了超过2000小时的高保真原始音频、温湿度传感器数据及详细的蜂群表型标签(如群体规模、蜂王状态、瓦螨感染率及冬季存活率),其核心前沿方向在于利用机器学习模型从原始音频中预测蜂群种群规模,并探索音频增强与特征提取方法(如MFCC、谱减法降噪)对预测精度的提升效果。此外,该数据集还推动了自监督学习在蜂巢音频分析中的应用,为无标注场景下的蜂群状态识别开辟了新路径。UrBAN的公开共享填补了该领域大规模、长周期原始音频数据的稀缺空白,为全球研究者开发普适性蜂群健康预警系统提供了关键资源,对应对农业授粉危机具有深远意义。
相关研究论文
- 1UrBAN: Urban Beehive Acoustics and PheNotyping Dataset魁北克大学 · 2024年
以上内容由遇见数据集搜集并总结生成



