BanglaNum
收藏arXiv2024-03-20 更新2024-06-21 收录
下载链接:
https://www.kaggle.com/datasets/mirsayeed/banglanum-bengali-numberrecognition-from-voice
下载链接
链接失效反馈官方服务:
资源简介:
BanglaNum是一个专为孟加拉数字语音识别设计的数据集,由孟加拉国工程技术大学电气与电子工程系创建。该数据集包含2252条语音样本,涵盖数字0至9,来源于40名孟加拉语母语者的录音。数据收集在教室环境中进行,使用MATLAB软件录制,确保了数据的真实性和日常应用性。数据集的创建旨在训练人工神经网络,以实现语音驱动的数字输入系统,特别适用于自动应答系统和电子商务网站的语音助手。该数据集的应用领域主要集中在提高孟加拉语语音识别的准确性和效率,解决现有语音识别系统在孟加拉语处理上的不足。
BanglaNum is a dataset tailored specifically for Bengali digit speech recognition, developed by the Department of Electrical and Electronic Engineering of Bangladesh University of Engineering and Technology. It comprises 2252 speech samples covering digits 0 through 9, recorded by 40 native Bengali speakers. All data was collected in a classroom setting and recorded using MATLAB software, ensuring the authenticity and daily practicality of the dataset. The dataset was constructed to train artificial neural networks for speech-driven digital input systems, particularly suitable for automatic answering systems and voice assistants on e-commerce websites. Its main application areas focus on improving the accuracy and efficiency of Bengali speech recognition, addressing the shortcomings of existing speech recognition systems in handling Bengali language.
提供机构:
孟加拉国工程技术大学电气与电子工程系
创建时间:
2024-03-20
搜集汇总
数据集介绍

构建方式
在语音识别领域,针对孟加拉语的研究相对匮乏,BanglaNum数据集的构建填补了这一空白。该数据集通过采集孟加拉语母语者的语音样本构建而成,具体过程包括在教室环境中使用普通耳机麦克风录制40名本科生志愿者的语音,每位志愿者以自然语速循环朗读0至9的数字五次,并附上个人学号,采样率为16kHz、位深为24位。随后,通过手动裁剪每个数字的发音片段,统一处理为8192个样本长度(约0.512秒),并进行零填充或裁剪以保持一致性,最终形成包含2252个音频样本的标准化数据集,保存为WAV格式并按类别分类存储。
特点
BanglaNum数据集以其针对孟加拉语数字语音识别的专一性而突出,涵盖了10个孤立数字(0-9)的发音,样本总量达2252个,其中男性与女性语音样本比例分别为35:5,反映了实际使用场景中的性别分布。数据集在构建时注重环境真实性,保留了教室背景噪音,增强了模型的鲁棒性。此外,音频样本经过统一长度处理,便于神经网络训练,且通过短时傅里叶变换生成的语谱图作为特征表示,与卷积神经网络结合展现出高识别精度,测试准确率可达98.23%,为轻量级模型如SqueezeNet的应用提供了验证基础。
使用方法
BanglaNum数据集适用于训练和评估语音识别模型,特别是在孟加拉语数字识别任务中。使用方法包括将音频样本转换为语谱图作为输入特征,利用短时傅里叶变换参数(如汉宁窗、窗口大小256、步长32)生成249×129×1维度的图像数据。研究者可采用卷积神经网络架构进行训练,建议使用80%数据作为训练集,剩余20%均分为验证集和测试集,优化器推荐Adam,学习率设为10^{-4},损失函数为稀疏分类交叉熵。该数据集支持轻量级模型部署,适用于实时语音助手或自动化系统,并可与其他孟加拉语语音数据混合以增强泛化能力。
背景与挑战
背景概述
在语音识别技术日益成为人机交互核心的背景下,孟加拉语作为全球使用人数众多的语言之一,其语音数据集的匮乏严重制约了相关智能系统的研发。BanglaNum数据集由孟加拉工程技术大学的研究团队于2024年创建,旨在填补孟加拉语语音数字识别领域的空白。该数据集聚焦于孟加拉语口语音频数字(0-9)的识别问题,通过采集大学学生的语音样本,构建了一个可用于训练神经网络模型的公开资源。其核心研究在于推动基于语音的数字输入系统发展,特别是在孟加拉语口音环境下,为语音助手、自动应答系统等应用提供基础支持,对促进低资源语言的语音技术研究具有重要影响力。
当前挑战
BanglaNum数据集面临的挑战主要体现在两个方面:在领域问题层面,孟加拉语语音数字识别需克服口音多样性、语音相似性(如数字7和8的发音易混淆)以及环境噪声干扰等问题,这些因素可能导致识别准确率下降,尤其在构建鲁棒的实时语音系统时更为突出。在构建过程层面,数据采集受限于样本来源的单一性(主要来自学生群体),可能引入采样偏差;同时,数据预处理中需平衡音频长度标准化与信息保留,而数据规模较小(仅2252条样本)则增加了模型过拟合风险,限制了深度学习方法的泛化能力。
常用场景
经典使用场景
在语音识别领域,尤其是针对低资源语言的自动语音识别研究,BanglaNum数据集为孟加拉语数字识别提供了宝贵的实验基础。该数据集通过采集孟加拉语母语者朗读数字0至9的音频,构建了一个包含2252条语音样本的标准化语料库。研究者通常利用该数据集训练卷积神经网络模型,通过将语音信号转换为频谱图进行特征提取与分类,从而评估不同模型在孟加拉语数字识别任务上的性能。这一经典使用场景不仅推动了孟加拉语语音识别技术的发展,也为跨语言语音识别研究提供了可复现的实验框架。
实际应用
在实际应用层面,BanglaNum数据集为开发面向孟加拉语用户的语音交互系统提供了核心数据支持。基于该数据集训练的模型可集成于智能客服系统、语音助手、电子商务平台的语音输入模块以及无障碍辅助设备中,实现数字语音指令的准确识别。例如,在孟加拉语地区的银行自动服务或医疗预约系统中,用户可通过语音输入数字信息,提升交互效率与包容性。这些应用不仅优化了用户体验,也推动了语音技术在多元文化场景中的落地。
衍生相关工作
BanglaNum数据集的发布激发了多项衍生研究,扩展了孟加拉语语音识别的技术边界。例如,研究者基于该数据集探索了混合语言(孟加拉语-英语)数字识别模型,结合梅尔频率倒谱系数与卷积神经网络提升跨语言识别鲁棒性。同时,该数据集被用于比较隐马尔可夫模型与深度学习方法的性能差异,促进了传统方法与现代神经网络的融合研究。此外,部分工作进一步扩充了数据规模,引入多方言、多年龄层语音样本,推动了数据增强与模型泛化能力的深入探索。
以上内容由遇见数据集搜集并总结生成



