SUST-CSE-Speech/SUBAK.KO
收藏数据集概述
基本信息
- 语言: 孟加拉语
- 许可: CC BY 4.0
- 数据集大小: 10K<n<100K
- 任务类别: 自动语音识别
数据结构
特征
- audio: 音频数据
- transcription: 文字转录
- file_path: 文件路径
数据分割
- test: 6533个样本,2345138893.961字节
- validation: 6594个样本,2374606148.554字节
- train: 64491个样本,23111288170.312字节
下载和数据集大小
- 下载大小: 31898660522字节
- 数据集大小: 27831033212.827字节
配置
- config_name: default
- 数据文件:
- test: data/test-*
- validation: data/validation-*
- train: data/train-*
标签
- speech-recognition: 语音识别
- Bangladeshi Bangla: 孟加拉国孟加拉语
- Bengali: 孟加拉语
- speech-corpus: 语音语料库
数据集描述
数据集摘要
SUBAK.KO是一个公开可用的孟加拉国标准孟加拉语语音语料库,用于自动语音识别研究。该语料库包含241小时的高质量语音数据,包括229小时的阅读语音数据和12小时的广播语音数据。阅读语音部分由33名男性和28名女性孟加拉国孟加拉语母语者录制,涵盖孟加拉国的8个地区/34个区。此外,阅读语音部分还包括两名第二语言(L2)说话者提供的1小时30分钟的录音。广播语音部分从YouTube收集。SUBAK.KO经过人工标注,以确保黄金标准标签。
支持的任务和排行榜
该数据集设计用于自动语音识别任务。相关论文提供了SUBAK.KO语料库的基线结果。
语言
孟加拉国标准孟加拉语
数据集创建
数据实例
一个典型的数据点包括音频文件的路径及其转录。
数据字段
- audio: 包含原始音频文件的路径、解码的音频数组和采样率。
- transcription: 正字法转录。
- file_path: 音频文件的相对路径。
数据分割
SUBAK.KO已被细分为训练、验证和测试三个部分。强烈建议在研究中使用相同的数据分割,以便于跨模型的基准测试。
| Train | Validation | Test | |
|---|---|---|---|
| Utterances | 64491 | 6594 | 6533 |
| Duration | 200.3 hrs | 20.5 hrs | 20.3 hrs |
附加信息
许可信息
引用信息
请在使用该语料库时引用以下论文:
@article{kibria2022bangladeshi, title={Bangladeshi Bangla speech corpus for automatic speech recognition research}, author={Kibria, Shafkat and Samin, Ahnaf Mozib and Kobir, M Humayon and Rahman, M Shahidur and Selim, M Reza and Iqbal, M Zafar}, journal={Speech Communication}, volume={136}, pages={84--97}, year={2022}, publisher={Elsevier} }
贡献
感谢Ahnaf Mozib Samin添加此数据集。



