SUST-CSE-Speech/banspeech
收藏数据集卡片 BanSpeech
数据集描述
- 开发者: 孟加拉国沙贾拉尔科技大学计算机科学与工程系
- 论文: BanSpeech: A Multi-domain Bangla Speech Recognition Benchmark Toward Robust Performance in Challenging Conditions
- 联系人: Ahnaf Mozib Samin
数据集概述
BanSpeech 是一个公开可用的孟加拉国标准孟加拉语多领域自动语音识别(ASR)基准,包含约6.52小时的人工标注广播语音,总计8085条语音,跨越13个不同领域,主要设计用于在挑战性条件下(如即兴、领域转移、多说话者、代码转换)进行ASR性能评估。此外,BanSpeech涵盖了孟加拉国7个地区的方言领域,但这一部分标签较弱,可用于方言识别任务。
支持的任务和排行榜
该基准设计用于自动语音识别性能评估。相关论文提供了对BanSpeech上最先进模型的全面评估。
语言
孟加拉国标准孟加拉语
数据集结构
数据实例
一个典型的数据点包括音频文件的路径及其转录。
json { audio: {path: /home/username/Study/wav2vec2/bangla_broadcast_speech_corpus/banspeech/television_news/news_shomoy_11_d_222.wav, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 16000}, transcript: এবং রাস্তা হয়েছে, path: /television_news/news_shomoy_11_d_222.wav }
数据字段
- audio: 包含原始音频文件路径、解码后的音频数组和采样率的字典。
- transcription: 正字法转录。
- file_path: 音频文件的相对路径。
附加信息
许可信息
引用信息
请在使用该语料库时引用以下论文:
bibtex @ARTICLE{10453554, author={Samin, Ahnaf Mozib and Kobir, M. Humayon and Rafee, Md. Mushtaq Shahriyar and Ahmed, M. Firoz and Hasan, Mehedi and Ghosh, Partha and Kibria, Shafkat and Rahman, M. Shahidur}, journal={IEEE Access}, title={BanSpeech: A Multi-Domain Bangla Speech Recognition Benchmark Toward Robust Performance in Challenging Conditions}, year={2024}, volume={12}, number={}, pages={34527-34538}, keywords={Speech recognition;Data models;Benchmark testing;Speech processing;Robustness;Solid modeling;Task analysis;Automatic speech recognition;Transfer learning;Neural networks;Convolutional neural networks;Supervised learning;Automatic speech recognition;Bangla;domain shifting;read speech;spontaneous speech;transfer learning}, doi={10.1109/ACCESS.2024.3371478}}
贡献
感谢 Ahnaf Mozib Samin 添加此数据集。



