five

SUST-CSE-Speech/SUBAK.KO

收藏
Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SUST-CSE-Speech/SUBAK.KO
下载链接
链接失效反馈
官方服务:
资源简介:
SUBAK.KO(সুবাক্য)是一个公开的孟加拉标准孟加拉语语音语料库,专为自动语音识别研究而编译。该语料库包含241小时的高质量语音数据,其中229小时为朗读语音,12小时为广播语音。朗读语音部分在隔音工作室环境中录制,来自33名男性和28名女性母语使用者,代表了孟加拉国的8个地区/34个区。此外,朗读语音部分还包括由两名第二语言(L2)使用者提供的1小时30分钟的录音。广播语音部分从YouTube收集。SUBAK.KO已在人工监督下进行了手动标注,以确保黄金标准标签。该数据集由孟加拉国沙贾拉尔科技大学计算机科学与工程系的研究人员开发,并得到了孟加拉国大学教育委员会高等教育质量提升项目的资助。

SUBAK.KO(সুবাক্য)是一个公开的孟加拉标准孟加拉语语音语料库,专为自动语音识别研究而编译。该语料库包含241小时的高质量语音数据,其中229小时为朗读语音,12小时为广播语音。朗读语音部分在隔音工作室环境中录制,来自33名男性和28名女性母语使用者,代表了孟加拉国的8个地区/34个区。此外,朗读语音部分还包括由两名第二语言(L2)使用者提供的1小时30分钟的录音。广播语音部分从YouTube收集。SUBAK.KO已在人工监督下进行了手动标注,以确保黄金标准标签。该数据集由孟加拉国沙贾拉尔科技大学计算机科学与工程系的研究人员开发,并得到了孟加拉国大学教育委员会高等教育质量提升项目的资助。
提供机构:
SUST-CSE-Speech
原始信息汇总

数据集概述

基本信息

  • 语言: 孟加拉语
  • 许可: CC BY 4.0
  • 数据集大小: 10K<n<100K
  • 任务类别: 自动语音识别

数据结构

特征

  • audio: 音频数据
  • transcription: 文字转录
  • file_path: 文件路径

数据分割

  • test: 6533个样本,2345138893.961字节
  • validation: 6594个样本,2374606148.554字节
  • train: 64491个样本,23111288170.312字节

下载和数据集大小

  • 下载大小: 31898660522字节
  • 数据集大小: 27831033212.827字节

配置

  • config_name: default
  • 数据文件:
    • test: data/test-*
    • validation: data/validation-*
    • train: data/train-*

标签

  • speech-recognition: 语音识别
  • Bangladeshi Bangla: 孟加拉国孟加拉语
  • Bengali: 孟加拉语
  • speech-corpus: 语音语料库

数据集描述

数据集摘要

SUBAK.KO是一个公开可用的孟加拉国标准孟加拉语语音语料库,用于自动语音识别研究。该语料库包含241小时的高质量语音数据,包括229小时的阅读语音数据和12小时的广播语音数据。阅读语音部分由33名男性和28名女性孟加拉国孟加拉语母语者录制,涵盖孟加拉国的8个地区/34个区。此外,阅读语音部分还包括两名第二语言(L2)说话者提供的1小时30分钟的录音。广播语音部分从YouTube收集。SUBAK.KO经过人工标注,以确保黄金标准标签。

支持的任务和排行榜

该数据集设计用于自动语音识别任务。相关论文提供了SUBAK.KO语料库的基线结果。

语言

孟加拉国标准孟加拉语

数据集创建

数据实例

一个典型的数据点包括音频文件的路径及其转录。

数据字段

  • audio: 包含原始音频文件的路径、解码的音频数组和采样率。
  • transcription: 正字法转录。
  • file_path: 音频文件的相对路径。

数据分割

SUBAK.KO已被细分为训练、验证和测试三个部分。强烈建议在研究中使用相同的数据分割,以便于跨模型的基准测试。

Train Validation Test
Utterances 64491 6594 6533
Duration 200.3 hrs 20.5 hrs 20.3 hrs

附加信息

许可信息

CC BY 4.0

引用信息

请在使用该语料库时引用以下论文:

@article{kibria2022bangladeshi, title={Bangladeshi Bangla speech corpus for automatic speech recognition research}, author={Kibria, Shafkat and Samin, Ahnaf Mozib and Kobir, M Humayon and Rahman, M Shahidur and Selim, M Reza and Iqbal, M Zafar}, journal={Speech Communication}, volume={136}, pages={84--97}, year={2022}, publisher={Elsevier} }

贡献

感谢Ahnaf Mozib Samin添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作