five

HumBugDB

收藏
arXiv2021-10-14 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2110.07607v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含20小时的多物种蚊子飞行声音录音,其中18小时有来自36种不同蚊子的标注。数据集旨在帮助利用蚊子声音进行调查,预测疾病爆发并指导干预政策。录音涵盖了从文化笼养到野生捕获的蚊子,信号噪声比和背景环境多样,包括坦桑尼亚、泰国、肯尼亚、美国和英国的室内外环境。

This dataset contains 20 hours of flight sound recordings of multiple mosquito species, with 18 hours of these recordings annotated with labels for 36 distinct mosquito species. This dataset is developed to facilitate research using mosquito flight sounds, predict disease outbreaks, and guide public health intervention policies. The recordings cover mosquitoes ranging from captive-reared to wild-caught specimens, featuring diverse signal-to-noise ratios and background environments, including indoor and outdoor settings in Tanzania, Thailand, Kenya, the United States, and the United Kingdom.
创建时间:
2021-10-14
搜集汇总
数据集介绍
main_image_url
构建方式
在蚊媒疾病监测领域,声学识别技术为自动化调查提供了新途径。HumBugDB数据集的构建依托全球合作网络,历时五年在坦桑尼亚、泰国、肯尼亚、美国和英国等多个地区开展系统化采集。数据采集采用双轨策略:一方面通过高灵敏度Telinga专业麦克风在受控环境中记录实验室培养的蚊种,另一方面利用低成本智能手机在野外环境中捕捉自然状态下的蚊虫飞行音。所有录音均经过专家精细标注,标注信息存储于PostgreSQL关系型数据库中,确保元数据的完整性与可追溯性。数据集最终包含20小时蚊虫音频和15小时对照背景音,涵盖36个蚊种,形成了首个大规模多物种蚊虫声学数据库。
特点
该数据集的核心特征体现在其生态有效性与技术前沿性的融合。从生态维度看,数据集同时包含实验室培养种群和野外捕获个体,完整覆盖了蚊虫声学特征的种内变异与种间差异。技术层面则呈现出多设备协同的特点,专业录音设备与智能手机的并行使用,既保证了声学信号的高保真度,又模拟了实际监测场景中的设备限制。数据集特别设计了平衡的负样本对照组,每个实验均匹配相应环境的背景噪音录音,有效避免了设备特征成为分类混淆因子。时空维度上,跨大洲的采集策略捕捉了不同地理种群与环境噪声的交互效应,为模型泛化能力评估提供了坚实基础。
使用方法
该数据集支持蚊虫声学监测研究的两大核心任务。在蚊虫事件检测任务中,研究者可利用标注的起止时间戳提取声学片段,通过梅尔频谱图等特征转换方法构建分类模型,区分蚊虫飞行音与环境背景噪声。物种分类任务则聚焦于已检测蚊虫的精细识别,建议采用分层训练策略:先使用实验室数据建立基础分类器,再通过迁移学习适配野外数据的不平衡分布。数据集提供的贝叶斯卷积神经网络基准代码,支持不确定性量化与主动学习框架的构建。实际部署时,可结合数据集中智能手机采集的野外录音子集,模拟移动端边缘计算场景下的模型性能验证。
背景与挑战
背景概述
HumBugDB数据集由牛津大学机器学习研究团队联合全球多个昆虫学研究机构于2021年共同创建,旨在通过声学特征监测蚊虫种群动态。该数据集收录了长达20小时的蚊虫飞行音频记录,涵盖36个物种,包括实验室培养与野外捕获的样本,数据采集范围遍及坦桑尼亚、泰国、肯尼亚、美国及英国。其核心研究聚焦于利用蚊虫翼振声纹实现物种识别与事件检测,以辅助疟疾、登革热等蚊媒疾病的预测与防控。该数据集的发布为生物声学分析与机器学习交叉研究提供了关键资源,推动了智能监测技术在公共卫生领域的应用。
当前挑战
HumBugDB面临的挑战主要体现在两方面:在领域问题层面,蚊虫声学检测需在复杂环境噪声中准确区分不同物种的翼振频率,而物种间声学特征相似度高,且野外样本存在个体差异与行为变异,增加了分类模型的泛化难度。在构建过程中,数据采集面临严峻挑战,包括野外环境背景噪声干扰、不同设备录音质量不均、蚊虫样本捕获与物种鉴定的复杂性,以及多国协作中数据标准化与隐私保护问题,这些因素共同影响了数据集的规模与标注精度。
常用场景
经典使用场景
在蚊媒传染病监测领域,HumBugDB数据集为基于声学特征的蚊子检测与物种分类研究提供了关键数据支撑。该数据集通过整合全球多地的野外与实验室录音,构建了包含36个物种、20小时精细标注的声学样本库,为开发自动化监测算法奠定了数据基础。其经典应用场景集中于训练贝叶斯卷积神经网络,执行蚊子事件检测与物种分类两大核心任务,推动声学生物传感技术在病媒控制中的实际部署。
实际应用
HumBugDB支撑的实际应用聚焦于智能蚊媒监测系统的落地。基于数据集训练的模型可集成至低成本智能手机应用,在疟疾等疾病流行区开展自动化蚊子普查。系统通过声学传感器实时采集环境音频,自动识别蚊子活动并分类关键物种,动态生成区域蚊情分布图。这种非侵入式监测方式显著提升了调查覆盖范围与时效性,为公共卫生部门制定靶向干预策略提供了数据驱动决策依据,具有重要的流行病学防控价值。
衍生相关工作
该数据集催生了系列创新研究工作,包括基于贝叶斯神经网络的蚊子事件检测框架、针对低信噪比环境的鲁棒分类算法,以及跨地域声学特征迁移学习模型。相关成果进一步拓展至蚊子性别与龄期声学鉴别、飞行行为生物力学分析等领域。数据集亦成为多项国际学术竞赛与挑战赛的基准数据,激励学界探索轻量化嵌入式检测方案与联邦学习部署架构,持续推动声学生物监测技术的前沿发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作