aaparajit02/punjabi-asr
收藏Hugging Face2023-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aaparajit02/punjabi-asr
下载链接
链接失效反馈官方服务:
资源简介:
Shrutilipi是一个标记的自动语音识别(ASR)语料库,通过从全印度广播新闻公告中挖掘平行音频和文本对获得,涵盖了12种印度语言:孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、梵语、泰米尔语、泰卢固语和乌尔都语。该语料库在所有语言中拥有超过6400小时的数据。
提供机构:
aaparajit02
原始信息汇总
数据集概述
基本信息
- 名称: Punjabi ASR
- 别名: Shrutilipi
- 任务类别: 自动语音识别 (ASR)
- 语言: 旁遮普语 (pa)
- 标签: 旁遮普语, ASR, 转录, 翻译
- 美观名称: Punjabi ASR
数据集特征
- 音频: 数据类型为音频
- 转录文本: 数据类型为字符串
- 英文文本: 数据类型为字符串
数据集划分
- 训练集:
- 示例数量: 39238
- 数据大小: 10917088956.322 字节
数据集大小
- 下载大小: 10866820110 字节
- 数据集总大小: 10917088956.322 字节
数据集来源
- 来源: 从All India Radio新闻广播中挖掘的平行音频和文本对
- 覆盖语言: 12种印度语言
- 数据总量: 超过6400小时
相关研究
- 论文: Effectiveness of Mining Audio and Text Pairs from Public Data for Improving ASR Systems for Low-Resource Languages
- 作者: Bhogale, Kaushal Santosh 等
- 年份: 2022
- 出版: arXiv



