five

SUST-CSE-Speech/banspeech

收藏
Hugging Face2024-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SUST-CSE-Speech/banspeech
下载链接
链接失效反馈
官方服务:
资源简介:
BanSpeech是一个公开的、人工标注的孟加拉语多领域自动语音识别(ASR)基准数据集。该数据集包含约6.52小时的广播语音,共8085条话语,覆盖13个不同领域,主要用于在具有挑战性的条件下(如自发语音、领域转移、多说话者和代码转换)评估ASR性能。此外,BanSpeech还包括来自孟加拉国7个地区的方言数据,这部分数据标注较弱,可用于方言识别任务。数据集由孟加拉国Shahjalal科技大学计算机科学与工程系的研究人员开发。

BanSpeech是一个公开的、人工标注的孟加拉语多领域自动语音识别(ASR)基准数据集。该数据集包含约6.52小时的广播语音,共8085条话语,覆盖13个不同领域,主要用于在具有挑战性的条件下(如自发语音、领域转移、多说话者和代码转换)评估ASR性能。此外,BanSpeech还包括来自孟加拉国7个地区的方言数据,这部分数据标注较弱,可用于方言识别任务。数据集由孟加拉国Shahjalal科技大学计算机科学与工程系的研究人员开发。
提供机构:
SUST-CSE-Speech
原始信息汇总

数据集卡片 BanSpeech

数据集描述

数据集概述

BanSpeech 是一个公开可用的孟加拉国标准孟加拉语多领域自动语音识别(ASR)基准,包含约6.52小时的人工标注广播语音,总计8085条语音,跨越13个不同领域,主要设计用于在挑战性条件下(如即兴、领域转移、多说话者、代码转换)进行ASR性能评估。此外,BanSpeech涵盖了孟加拉国7个地区的方言领域,但这一部分标签较弱,可用于方言识别任务。

支持的任务和排行榜

该基准设计用于自动语音识别性能评估。相关论文提供了对BanSpeech上最先进模型的全面评估。

语言

孟加拉国标准孟加拉语

数据集结构

数据实例

一个典型的数据点包括音频文件的路径及其转录。

json { audio: {path: /home/username/Study/wav2vec2/bangla_broadcast_speech_corpus/banspeech/television_news/news_shomoy_11_d_222.wav, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 16000}, transcript: এবং রাস্তা হয়েছে, path: /television_news/news_shomoy_11_d_222.wav }

数据字段

  • audio: 包含原始音频文件路径、解码后的音频数组和采样率的字典。
  • transcription: 正字法转录。
  • file_path: 音频文件的相对路径。

附加信息

许可信息

CC BY 4.0

引用信息

请在使用该语料库时引用以下论文:

bibtex @ARTICLE{10453554, author={Samin, Ahnaf Mozib and Kobir, M. Humayon and Rafee, Md. Mushtaq Shahriyar and Ahmed, M. Firoz and Hasan, Mehedi and Ghosh, Partha and Kibria, Shafkat and Rahman, M. Shahidur}, journal={IEEE Access}, title={BanSpeech: A Multi-Domain Bangla Speech Recognition Benchmark Toward Robust Performance in Challenging Conditions}, year={2024}, volume={12}, number={}, pages={34527-34538}, keywords={Speech recognition;Data models;Benchmark testing;Speech processing;Robustness;Solid modeling;Task analysis;Automatic speech recognition;Transfer learning;Neural networks;Convolutional neural networks;Supervised learning;Automatic speech recognition;Bangla;domain shifting;read speech;spontaneous speech;transfer learning}, doi={10.1109/ACCESS.2024.3371478}}

贡献

感谢 Ahnaf Mozib Samin 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作