smcproject/MSC

Name: smcproject/MSC
Creator: smcproject
Published: 2023-11-21 09:49:54
License: 暂无描述

Hugging Face2023-11-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/smcproject/MSC

下载链接

链接失效反馈

官方服务：

资源简介：

SMC Malayalam Speech Corpus数据集是一个用于自动语音识别系统开发以及说话者性别和年龄识别的语音数据集。该数据集包含1541个语音样本，由75位语音贡献者提供，总时长为1小时38分钟16秒。数据集包含482个独特的句子、1400个独特的单词、553个独特的音节和48个独特的音素。语音数据是通过一个网页应用收集的，志愿者使用个人设备录制语音，并由其他用户进行评分。数据集的语言为马拉雅拉姆语。

提供机构：

smcproject

原始信息汇总

数据集卡片 for [msc]

数据集描述

数据集摘要

1541个语音样本
75位语音贡献者
1小时38分钟16秒的语音时长
482个独特句子
1400个独特单词
553个独特音节
48个独特音素

支持的任务和排行榜

自动语音识别系统开发，说话人性别和年龄识别

语言

马拉雅拉姆语

数据集结构

数据实例

数据字段

audio: 音频数据
speechid: 字符串，语音ID
speaker_id: 字符串，说话人ID
review_score: 整数，评审分数
transcript: 字符串，转录文本
category: 字符串，可选的语音类别
speaker_gender: 字符串，可选的说话人性别
speaker_age: 字符串，可选的说话人年龄

数据分割

train: 训练集，包含1541个样本，大小为579920220.506字节

数据集创建

语音数据由志愿者用户通过web应用程序使用个人设备阅读和录制。录制的语音由其他用户评审（点赞和点踩分别给出+1和-1的分数），评审分数也会公布。

策划理由

至少获得三个正面评审的语音样本被包含在此数据集中。

源数据

初始数据收集和规范化

语音数据由志愿者贡献者通过web应用程序阅读和录制。用户可选提供姓名、年龄和性别，没有进一步验证。读出的句子由MSC管理员策划。语音样本由其他用户评审。

个人和敏感信息

每个说话人由唯一的字母数字ID标识，年龄和性别如果说话人自愿公开则发布。

使用数据集的注意事项

数据集的社会影响

由用户在自然环境中录制的阅读语音语料库。

数据集策展人

Kavya Manohar

许可信息

CC-BY-SA 4.0

引用信息

贡献

http://msc.smc.org.in/

5,000+

优质数据集

54 个

任务类型

进入经典数据集