thennal/msc

Name: thennal/msc
Creator: thennal
Published: 2022-12-08 06:49:31
License: 暂无描述

Hugging Face2022-12-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thennal/msc

下载链接

链接失效反馈

官方服务：

资源简介：

Swathanthra Malayalam Computing Malayalam Speech Corpus（SMC Malayalam Speech Corpus）是一个由Swathanthra Malayalam Computing发布的经过整理的语音样本库。该数据集的第一版包含1541个语音样本，来自75位贡献者，总时长为1小时38分钟16秒。数据集包含482个独特的句子，1400个独特的单词，553个独特的音节和48个独特的音素。数据集的特征包括语音ID、说话者ID、评分、转录文本、类别、说话者性别、说话者年龄和音频文件。数据集主要用于自动语音识别任务。

提供机构：

thennal

原始信息汇总

SMC Malayalam Speech Corpus 数据集概述

基本信息

数据集名称： Swathanthra Malayalam Computing Malayalam Speech Corpus
数据集别名： SMC Malayalam Speech Corpus
语言： 马拉雅拉姆语（ml）
许可证： CC-BY-SA-4.0
多语言性： 单语种
大小类别： 1K<n<10K
任务类别： 自动语音识别

数据集特征

speechid： 字符串类型
speaker_id： 字符串类型
review_score： 整数类型
transcript： 字符串类型
category： 字符串类型
speaker_gender： 字符串类型
speaker_age： 字符串类型
audio： 音频类型，采样率为48000

数据集拆分

训练集（train）：
- 样本数量： 1541
- 数据大小： 581998721.306字节
- 下载大小： 422643542字节

数据集详情

版本： 第一版
样本来源： 75位贡献者
总时长： 1小时38分16秒
句子数量： 482个独特句子
单词数量： 1400个独特单词
音节数量： 553个独特音节
音素数量： 48个独特音素

5,000+

优质数据集

54 个

任务类型

进入经典数据集