thennal/msc
收藏Hugging Face2022-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thennal/msc
下载链接
链接失效反馈官方服务:
资源简介:
Swathanthra Malayalam Computing Malayalam Speech Corpus(SMC Malayalam Speech Corpus)是一个由Swathanthra Malayalam Computing发布的经过整理的语音样本库。该数据集的第一版包含1541个语音样本,来自75位贡献者,总时长为1小时38分钟16秒。数据集包含482个独特的句子,1400个独特的单词,553个独特的音节和48个独特的音素。数据集的特征包括语音ID、说话者ID、评分、转录文本、类别、说话者性别、说话者年龄和音频文件。数据集主要用于自动语音识别任务。
提供机构:
thennal
原始信息汇总
SMC Malayalam Speech Corpus 数据集概述
基本信息
- 数据集名称: Swathanthra Malayalam Computing Malayalam Speech Corpus
- 数据集别名: SMC Malayalam Speech Corpus
- 语言: 马拉雅拉姆语(ml)
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语种
- 大小类别: 1K<n<10K
- 任务类别: 自动语音识别
数据集特征
- speechid: 字符串类型
- speaker_id: 字符串类型
- review_score: 整数类型
- transcript: 字符串类型
- category: 字符串类型
- speaker_gender: 字符串类型
- speaker_age: 字符串类型
- audio: 音频类型,采样率为48000
数据集拆分
- 训练集(train):
- 样本数量: 1541
- 数据大小: 581998721.306字节
- 下载大小: 422643542字节
数据集详情
- 版本: 第一版
- 样本来源: 75位贡献者
- 总时长: 1小时38分16秒
- 句子数量: 482个独特句子
- 单词数量: 1400个独特单词
- 音节数量: 553个独特音节
- 音素数量: 48个独特音素



