five

thennal/msc

收藏
Hugging Face2022-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thennal/msc
下载链接
链接失效反馈
官方服务:
资源简介:
Swathanthra Malayalam Computing Malayalam Speech Corpus(SMC Malayalam Speech Corpus)是一个由Swathanthra Malayalam Computing发布的经过整理的语音样本库。该数据集的第一版包含1541个语音样本,来自75位贡献者,总时长为1小时38分钟16秒。数据集包含482个独特的句子,1400个独特的单词,553个独特的音节和48个独特的音素。数据集的特征包括语音ID、说话者ID、评分、转录文本、类别、说话者性别、说话者年龄和音频文件。数据集主要用于自动语音识别任务。
提供机构:
thennal
原始信息汇总

SMC Malayalam Speech Corpus 数据集概述

基本信息

  • 数据集名称: Swathanthra Malayalam Computing Malayalam Speech Corpus
  • 数据集别名: SMC Malayalam Speech Corpus
  • 语言: 马拉雅拉姆语(ml)
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 单语种
  • 大小类别: 1K<n<10K
  • 任务类别: 自动语音识别

数据集特征

  • speechid: 字符串类型
  • speaker_id: 字符串类型
  • review_score: 整数类型
  • transcript: 字符串类型
  • category: 字符串类型
  • speaker_gender: 字符串类型
  • speaker_age: 字符串类型
  • audio: 音频类型,采样率为48000

数据集拆分

  • 训练集(train):
    • 样本数量: 1541
    • 数据大小: 581998721.306字节
    • 下载大小: 422643542字节

数据集详情

  • 版本: 第一版
  • 样本来源: 75位贡献者
  • 总时长: 1小时38分16秒
  • 句子数量: 482个独特句子
  • 单词数量: 1400个独特单词
  • 音节数量: 553个独特音节
  • 音素数量: 48个独特音素
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作