five

thennal/ulca_ml

收藏
Hugging Face2022-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thennal/ulca_ml
下载链接
链接失效反馈
官方服务:
资源简介:
ULCA ASR Dataset Malayalam Speech Corpus是一个马拉雅拉姆语的语音数据集,主要用于自动语音识别任务。数据集来源于新闻广播,主要由短音频片段组成,也有一些较长的异常值。数据集包含文本和音频两种数据类型,是单语言的,由专家生成注释,使用CC BY 4.0许可证。数据集的大小在1K到10K之间,包含8614个训练样本。
提供机构:
thennal
原始信息汇总

ULCA ASR Dataset Malayalam Speech Corpus 概述

数据集基本信息

  • 名称: ULCA ASR Dataset Malayalam Speech Corpus
  • 语言: 马拉雅拉姆语(ml)
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 任务类别: 自动语音识别

数据集特征

  • 特征1: text
    • 数据类型: string
  • 特征2: audio
    • 数据类型: audio

数据集分割

  • 训练集:
    • 示例数量: 8614
    • 字节数: 1117843608.106

数据集大小

  • 下载大小: 321100264
  • 数据集总大小: 1117843608.106

数据集来源

  • 来源: 新闻广播
  • 内容特点: 主要包含短音频片段,有少量较长音频

数据集创建者

  • 注释创建者: 专家生成
  • 语言创建者: 发现
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作