蚊子声音分类数据集
收藏github2024-12-19 更新2024-12-20 收录
下载链接:
https://github.com/sains-data/Klasifikasi-Suara-Nyamuk-Berbasis-CNN-untuk-Inovasi-Pengendalian-Hama-dan-Penyakit
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含蚊子的音频文件(.wav格式)和对应的标签文件(.csv格式),用于分类不同种类的蚊子声音。数据集中的蚊子种类包括Aedes aegypti、Anopheles stephensi和Culex pipiens。
This dataset contains audio recordings of mosquitoes in .wav format and their corresponding label files in .csv format, which is designed for classifying the sounds of different mosquito species. The mosquito species included in this dataset are Aedes aegypti, Anopheles stephensi, and Culex pipiens.
创建时间:
2024-11-27
原始信息汇总
数据集概述
数据集描述
- 数据类型: 包含蚊子声音的音频文件和对应的标签文件。
- 文件格式:
- 音频文件:
.wav - 标签文件:
.csv
- 音频文件:
- 下载链接: Download Dataset
数据处理
- 音频预处理:
- 过滤音频以去除噪声。
- 使用MFCC和Mel Spectrogram提取特征。
- 数据增强以提高模型的泛化能力。
分类目标
- 分类的蚊子种类:
- Aedes aegypti (登革热传播媒介)
- Anopheles stephensi (疟疾传播媒介)
- Culex pipiens (丝虫病传播媒介)
数据集用途
- 支持政府在2030年前消除疟疾和丝虫病的目标。
- 减少登革热病例,目标是将发病率降至每10万人口49例以下。
搜集汇总
数据集介绍

构建方式
蚊子声音分类数据集的构建基于对多种蚊子物种的声音进行录音和标注。数据集包含了三种主要蚊子物种的音频记录,分别是埃及伊蚊(Aedes aegypti)、斯氏按蚊(Anopheles stephensi)和尖音库蚊(Culex pipiens)。这些音频文件以.wav格式存储,并附有相应的物种标签,存储在.csv文件中。数据处理过程中,首先通过滤波技术去除音频中的噪声,随后使用梅尔频率倒谱系数(MFCC)和梅尔频谱图(Mel Spectrogram)进行特征提取。为了增强模型的泛化能力,数据集还进行了数据增强处理。
特点
该数据集的主要特点在于其专注于热带地区常见的蚊子物种,这些物种是传播登革热、疟疾和丝虫病等疾病的主要媒介。数据集的音频文件经过精心处理,去除了环境噪声,确保了特征提取的准确性。此外,数据集采用了多种特征提取方法,如MFCC和Mel Spectrogram,以捕捉蚊子声音的细微差别。数据增强技术的应用进一步提高了模型的鲁棒性,使其在不同环境条件下仍能保持较高的分类准确率。
使用方法
使用该数据集时,用户首先需要下载包含音频文件和标签的完整数据集。随后,可以通过Python环境中的Librosa库进行音频预处理和特征提取。模型训练阶段,推荐使用TensorFlow/Keras框架构建卷积神经网络(CNN),并结合数据增强技术进行训练。训练完成后,用户可以通过Streamlit框架构建交互式应用,实时分类输入的蚊子声音。此外,数据集还提供了预训练模型和训练历史记录,方便用户直接进行模型评估或进一步优化。
背景与挑战
背景概述
蚊子声音分类数据集由2024年深度学习课程的Team-1团队开发,旨在通过卷积神经网络(CNN)对蚊子翅膀振动的声音进行分类,以支持热带地区,特别是印度尼西亚的害虫和疾病控制创新。该数据集的核心研究问题是通过声音识别蚊子的种类,包括埃及伊蚊(登革热传播媒介)、斯氏按蚊(疟疾传播媒介)和尖音库蚊(丝虫病传播媒介)。该项目的研究背景与全球卫生目标紧密相关,特别是2030年消除疟疾和丝虫病的目标,以及减少登革热发病率至每10万人中少于49例的目标。
当前挑战
蚊子声音分类数据集面临的挑战主要包括:首先,音频数据的采集和预处理过程中,如何有效去除背景噪音并提取有效的特征(如MFCC和Mel Spectrogram)是一个技术难点。其次,由于不同蚊子种类的声音特征相似,模型在区分这些声音时可能面临分类准确性的挑战。此外,数据增强技术的应用虽然有助于提高模型的泛化能力,但也可能导致数据失真,影响模型的实际表现。最后,模型的实时性要求(预测时间小于1秒)对算法的效率提出了较高的要求,尤其是在资源有限的地区部署时。
常用场景
经典使用场景
蚊子声音分类数据集的经典使用场景主要集中在基于卷积神经网络(CNN)的蚊子声音自动分类系统中。该数据集通过收集和标注不同蚊子物种(如埃及伊蚊、斯氏按蚊和尖音库蚊)的音频数据,支持模型训练以实现对蚊子声音的精准分类。这一应用场景在热带地区,尤其是印度尼西亚等蚊媒疾病高发区域,具有重要的公共卫生意义。通过分析蚊子的声音特征,研究人员能够快速识别潜在的疾病传播媒介,从而为蚊媒疾病的防控提供技术支持。
实际应用
在实际应用中,蚊子声音分类数据集可广泛应用于公共卫生监测和蚊媒疾病防控领域。例如,该数据集支持开发的自动蚊子声音分类系统可以部署在蚊媒疾病高发区域,实时监测和识别蚊子的物种,从而为疾病防控提供及时的数据支持。此外,该系统还可用于智能蚊帐或蚊虫诱捕器中,通过声音识别技术自动检测和控制蚊虫数量,减少蚊媒疾病的传播风险。这些应用场景不仅提高了疾病防控的效率,还降低了人工监测的成本和复杂性。
衍生相关工作
蚊子声音分类数据集的发布催生了一系列相关的经典工作,特别是在蚊媒疾病防控和深度学习技术的结合方面。基于该数据集,研究人员开发了多种基于CNN的蚊子声音分类模型,并通过不断优化模型结构和数据增强技术,提升了分类的准确性和鲁棒性。此外,该数据集还激发了其他研究者探索基于声音的蚊子行为分析和蚊媒疾病传播动力学研究,进一步推动了蚊媒疾病防控技术的创新与发展。这些衍生工作不仅丰富了蚊媒疾病研究的方法论,还为全球公共卫生领域提供了新的技术解决方案。
以上内容由遇见数据集搜集并总结生成



