SKNahin/open-large-bengali-asr-data
收藏Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SKNahin/open-large-bengali-asr-data
下载链接
链接失效反馈官方服务:
资源简介:
这是一个公开可用的孟加拉语自动语音识别(ASR)数据集集合,包含5000小时的音频数据。数据集包含音频文件及其转录文本,以及其他相关特征如音频时长、采样率、Wav2Vec2模型的预测结果、词错误率(WER)、每秒单词数(WPS)和音频质量标记(is_better)。数据集分为多个子集,如commonvoice、openslr、madasr等,每个子集都有详细的字节数和样本数。该数据集主要用于孟加拉语的自动语音识别任务。
这是一个公开可用的孟加拉语自动语音识别(ASR)数据集集合,包含5000小时的音频数据。数据集包含音频文件及其转录文本,以及其他相关特征如音频时长、采样率、Wav2Vec2模型的预测结果、词错误率(WER)、每秒单词数(WPS)和音频质量标记(is_better)。数据集分为多个子集,如commonvoice、openslr、madasr等,每个子集都有详细的字节数和样本数。该数据集主要用于孟加拉语的自动语音识别任务。
提供机构:
SKNahin
原始信息汇总
数据集概述
数据集特征
- audio: 音频数据,数据类型为音频。
- transcription: 转录文本,数据类型为字符串。
- duration: 音频时长,数据类型为浮点数。
- sr: 采样率,数据类型为整数。
- wav2vec2pred: 基于Wav2Vec2模型的预测结果,数据类型为字符串。
- wer: 词错误率,数据类型为浮点数。
- wps: 每秒单词数,数据类型为浮点数。
- is_better: 质量过滤标志,数据类型为布尔值。
数据集分割
- commonvoice: 数据大小为26613419533.408字节,包含963636个样本。
- openslr: 数据大小为2246649669.92字节,包含198789个样本。
- madasr: 数据大小为6101023454.02字节,包含372065个样本。
- shrutilipi: 数据大小为5017828548.87字节,包含246370个样本。
- flerus: 数据大小为120214199.914字节,包含3006个样本。
- kathbath: 数据大小为92451768.598字节,包含4589个样本。
- indictts: 数据大小为227151543.152字节,包含12752个样本。
- ucla: 数据大小为20343224982.168字节,包含1921116个样本。
- gali: 数据大小为345715480字节,包含10000个样本。
数据集大小
- 下载大小: 58948504311字节。
- 数据集大小: 61107679180.05001字节。
配置
- 默认配置: 包含多个分割的数据文件路径。
任务类别
- automatic-speech-recognition
语言
- bn
大小类别
- 1M<n<10M



