thennal/ulca_ml
收藏Hugging Face2022-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thennal/ulca_ml
下载链接
链接失效反馈官方服务:
资源简介:
ULCA ASR Dataset Malayalam Speech Corpus是一个马拉雅拉姆语的语音数据集,主要用于自动语音识别任务。数据集来源于新闻广播,主要由短音频片段组成,也有一些较长的异常值。数据集包含文本和音频两种数据类型,是单语言的,由专家生成注释,使用CC BY 4.0许可证。数据集的大小在1K到10K之间,包含8614个训练样本。
提供机构:
thennal
原始信息汇总
ULCA ASR Dataset Malayalam Speech Corpus 概述
数据集基本信息
- 名称: ULCA ASR Dataset Malayalam Speech Corpus
- 语言: 马拉雅拉姆语(ml)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 任务类别: 自动语音识别
数据集特征
- 特征1: text
- 数据类型: string
- 特征2: audio
- 数据类型: audio
数据集分割
- 训练集:
- 示例数量: 8614
- 字节数: 1117843608.106
数据集大小
- 下载大小: 321100264
- 数据集总大小: 1117843608.106
数据集来源
- 来源: 新闻广播
- 内容特点: 主要包含短音频片段,有少量较长音频
数据集创建者
- 注释创建者: 专家生成
- 语言创建者: 发现



