five

SKNahin/open-large-bengali-asr-data

收藏
Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SKNahin/open-large-bengali-asr-data
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个公开可用的孟加拉语自动语音识别(ASR)数据集集合,包含5000小时的音频数据。数据集包含音频文件及其转录文本,以及其他相关特征如音频时长、采样率、Wav2Vec2模型的预测结果、词错误率(WER)、每秒单词数(WPS)和音频质量标记(is_better)。数据集分为多个子集,如commonvoice、openslr、madasr等,每个子集都有详细的字节数和样本数。该数据集主要用于孟加拉语的自动语音识别任务。

这是一个公开可用的孟加拉语自动语音识别(ASR)数据集集合,包含5000小时的音频数据。数据集包含音频文件及其转录文本,以及其他相关特征如音频时长、采样率、Wav2Vec2模型的预测结果、词错误率(WER)、每秒单词数(WPS)和音频质量标记(is_better)。数据集分为多个子集,如commonvoice、openslr、madasr等,每个子集都有详细的字节数和样本数。该数据集主要用于孟加拉语的自动语音识别任务。
提供机构:
SKNahin
原始信息汇总

数据集概述

数据集特征

  • audio: 音频数据,数据类型为音频。
  • transcription: 转录文本,数据类型为字符串。
  • duration: 音频时长,数据类型为浮点数。
  • sr: 采样率,数据类型为整数。
  • wav2vec2pred: 基于Wav2Vec2模型的预测结果,数据类型为字符串。
  • wer: 词错误率,数据类型为浮点数。
  • wps: 每秒单词数,数据类型为浮点数。
  • is_better: 质量过滤标志,数据类型为布尔值。

数据集分割

  • commonvoice: 数据大小为26613419533.408字节,包含963636个样本。
  • openslr: 数据大小为2246649669.92字节,包含198789个样本。
  • madasr: 数据大小为6101023454.02字节,包含372065个样本。
  • shrutilipi: 数据大小为5017828548.87字节,包含246370个样本。
  • flerus: 数据大小为120214199.914字节,包含3006个样本。
  • kathbath: 数据大小为92451768.598字节,包含4589个样本。
  • indictts: 数据大小为227151543.152字节,包含12752个样本。
  • ucla: 数据大小为20343224982.168字节,包含1921116个样本。
  • gali: 数据大小为345715480字节,包含10000个样本。

数据集大小

  • 下载大小: 58948504311字节。
  • 数据集大小: 61107679180.05001字节。

配置

  • 默认配置: 包含多个分割的数据文件路径。

任务类别

  • automatic-speech-recognition

语言

  • bn

大小类别

  • 1M<n<10M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作