普通话自然口语数据集
收藏魔搭社区2025-08-26 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/Magic_Data/Mandarin_Chinese_Spontaneous_Speech_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
TXT FILE FORMAT
[start_time,end_time] speaker_id gender transcription
SYMBOL DESCRIPTION
[*] unintelligible words or sentences, or a long passage of a foreign language
[+] overlapping speech
[LAUGHTER] laughter
[SONANT] interference noises generated by the speaker's vocal system, such as cough, sneeze, and throat clearing
[MUSIC] music, including humming
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
TXT文件格式
[开始时间,结束时间] 说话人ID 性别 转录内容
符号 说明
[*] 无法识别的词句或大段外语内容
[+] 重叠语音
[LAUGHTER] 笑声
[SONANT] 说话者发声系统产生的干扰音,例如咳嗽、喷嚏、清嗓声
[MUSIC] 音乐,包括哼唱声
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-16
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个普通话自然口语语音语料库,包含TXT格式的语音文件,记录了时间戳、说话人ID、性别和转写文本,并定义了特殊符号以标注非语言元素如笑声和重叠语音。数据集由Magic_Data发布,采用Apache License 2.0许可,适用于语音处理研究。
以上内容由遇见数据集搜集并总结生成



