smcproject/MSC
收藏Hugging Face2023-11-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/smcproject/MSC
下载链接
链接失效反馈官方服务:
资源简介:
SMC Malayalam Speech Corpus数据集是一个用于自动语音识别系统开发以及说话者性别和年龄识别的语音数据集。该数据集包含1541个语音样本,由75位语音贡献者提供,总时长为1小时38分钟16秒。数据集包含482个独特的句子、1400个独特的单词、553个独特的音节和48个独特的音素。语音数据是通过一个网页应用收集的,志愿者使用个人设备录制语音,并由其他用户进行评分。数据集的语言为马拉雅拉姆语。
SMC Malayalam Speech Corpus数据集是一个用于自动语音识别系统开发以及说话者性别和年龄识别的语音数据集。该数据集包含1541个语音样本,由75位语音贡献者提供,总时长为1小时38分钟16秒。数据集包含482个独特的句子、1400个独特的单词、553个独特的音节和48个独特的音素。语音数据是通过一个网页应用收集的,志愿者使用个人设备录制语音,并由其他用户进行评分。数据集的语言为马拉雅拉姆语。
提供机构:
smcproject
原始信息汇总
数据集卡片 for [msc]
数据集描述
数据集摘要
- 1541个语音样本
- 75位语音贡献者
- 1小时38分钟16秒的语音时长
- 482个独特句子
- 1400个独特单词
- 553个独特音节
- 48个独特音素
支持的任务和排行榜
自动语音识别系统开发,说话人性别和年龄识别
语言
马拉雅拉姆语
数据集结构
数据实例
数据字段
- audio: 音频数据
- speechid: 字符串,语音ID
- speaker_id: 字符串,说话人ID
- review_score: 整数,评审分数
- transcript: 字符串,转录文本
- category: 字符串,可选的语音类别
- speaker_gender: 字符串,可选的说话人性别
- speaker_age: 字符串,可选的说话人年龄
数据分割
- train: 训练集,包含1541个样本,大小为579920220.506字节
数据集创建
语音数据由志愿者用户通过web应用程序使用个人设备阅读和录制。录制的语音由其他用户评审(点赞和点踩分别给出+1和-1的分数),评审分数也会公布。
策划理由
至少获得三个正面评审的语音样本被包含在此数据集中。
源数据
初始数据收集和规范化
语音数据由志愿者贡献者通过web应用程序阅读和录制。用户可选提供姓名、年龄和性别,没有进一步验证。读出的句子由MSC管理员策划。语音样本由其他用户评审。
个人和敏感信息
每个说话人由唯一的字母数字ID标识,年龄和性别如果说话人自愿公开则发布。
使用数据集的注意事项
数据集的社会影响
由用户在自然环境中录制的阅读语音语料库。
数据集策展人
Kavya Manohar
许可信息
CC-BY-SA 4.0
引用信息
贡献
http://msc.smc.org.in/



