SUST-CSE-Speech/banspeech

Name: SUST-CSE-Speech/banspeech
Creator: SUST-CSE-Speech
Published: 2024-03-09 20:24:47
License: 暂无描述

Hugging Face2024-03-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SUST-CSE-Speech/banspeech

下载链接

链接失效反馈

官方服务：

资源简介：

BanSpeech是一个公开的、人工标注的孟加拉语多领域自动语音识别（ASR）基准数据集。该数据集包含约6.52小时的广播语音，共8085条话语，覆盖13个不同领域，主要用于在具有挑战性的条件下（如自发语音、领域转移、多说话者和代码转换）评估ASR性能。此外，BanSpeech还包括来自孟加拉国7个地区的方言数据，这部分数据标注较弱，可用于方言识别任务。数据集由孟加拉国Shahjalal科技大学计算机科学与工程系的研究人员开发。

提供机构：

SUST-CSE-Speech

原始信息汇总

数据集卡片 BanSpeech

数据集描述

开发者: 孟加拉国沙贾拉尔科技大学计算机科学与工程系
论文: BanSpeech: A Multi-domain Bangla Speech Recognition Benchmark Toward Robust Performance in Challenging Conditions
联系人: Ahnaf Mozib Samin

数据集概述

BanSpeech 是一个公开可用的孟加拉国标准孟加拉语多领域自动语音识别（ASR）基准，包含约6.52小时的人工标注广播语音，总计8085条语音，跨越13个不同领域，主要设计用于在挑战性条件下（如即兴、领域转移、多说话者、代码转换）进行ASR性能评估。此外，BanSpeech涵盖了孟加拉国7个地区的方言领域，但这一部分标签较弱，可用于方言识别任务。

支持的任务和排行榜

该基准设计用于自动语音识别性能评估。相关论文提供了对BanSpeech上最先进模型的全面评估。

语言

孟加拉国标准孟加拉语

数据集结构

数据实例

一个典型的数据点包括音频文件的路径及其转录。

json { audio: {path: /home/username/Study/wav2vec2/bangla_broadcast_speech_corpus/banspeech/television_news/news_shomoy_11_d_222.wav, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 16000}, transcript: এবং রাস্তা হয়েছে, path: /television_news/news_shomoy_11_d_222.wav }

数据字段

audio: 包含原始音频文件路径、解码后的音频数组和采样率的字典。
transcription: 正字法转录。
file_path: 音频文件的相对路径。

附加信息

许可信息

CC BY 4.0

引用信息

请在使用该语料库时引用以下论文：

bibtex @ARTICLE{10453554, author={Samin, Ahnaf Mozib and Kobir, M. Humayon and Rafee, Md. Mushtaq Shahriyar and Ahmed, M. Firoz and Hasan, Mehedi and Ghosh, Partha and Kibria, Shafkat and Rahman, M. Shahidur}, journal={IEEE Access}, title={BanSpeech: A Multi-Domain Bangla Speech Recognition Benchmark Toward Robust Performance in Challenging Conditions}, year={2024}, volume={12}, number={}, pages={34527-34538}, keywords={Speech recognition;Data models;Benchmark testing;Speech processing;Robustness;Solid modeling;Task analysis;Automatic speech recognition;Transfer learning;Neural networks;Convolutional neural networks;Supervised learning;Automatic speech recognition;Bangla;domain shifting;read speech;spontaneous speech;transfer learning}, doi={10.1109/ACCESS.2024.3371478}}

贡献

感谢 Ahnaf Mozib Samin 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集