thennal/ulca_ml

Name: thennal/ulca_ml
Creator: thennal
Published: 2022-12-08 17:15:07
License: 暂无描述

Hugging Face2022-12-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thennal/ulca_ml

下载链接

链接失效反馈

官方服务：

资源简介：

ULCA ASR Dataset Malayalam Speech Corpus是一个马拉雅拉姆语的语音数据集，主要用于自动语音识别任务。数据集来源于新闻广播，主要由短音频片段组成，也有一些较长的异常值。数据集包含文本和音频两种数据类型，是单语言的，由专家生成注释，使用CC BY 4.0许可证。数据集的大小在1K到10K之间，包含8614个训练样本。

提供机构：

thennal

原始信息汇总

ULCA ASR Dataset Malayalam Speech Corpus 概述

数据集基本信息

名称: ULCA ASR Dataset Malayalam Speech Corpus
语言: 马拉雅拉姆语（ml）
许可证: CC-BY-4.0
多语言性: 单语种
任务类别: 自动语音识别

数据集特征

特征1: text
- 数据类型: string
特征2: audio
- 数据类型: audio

数据集分割

训练集:
- 示例数量: 8614
- 字节数: 1117843608.106

数据集大小

下载大小: 321100264
数据集总大小: 1117843608.106

数据集来源

来源: 新闻广播
内容特点: 主要包含短音频片段，有少量较长音频

数据集创建者

注释创建者: 专家生成
语言创建者: 发现

5,000+

优质数据集

54 个

任务类型

进入经典数据集