five

普通话自然口语数据集

收藏
魔搭社区2025-08-26 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/Magic_Data/Mandarin_Chinese_Spontaneous_Speech_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
TXT FILE FORMAT [start_time,end_time] speaker_id gender transcription SYMBOL DESCRIPTION [*] unintelligible words or sentences, or a long passage of a foreign language [+] overlapping speech [LAUGHTER] laughter [SONANT] interference noises generated by the speaker's vocal system, such as cough, sneeze, and throat clearing [MUSIC] music, including humming #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}

TXT文件格式 [开始时间,结束时间] 说话人ID 性别 转录内容 符号 说明 [*] 无法识别的词句或大段外语内容 [+] 重叠语音 [LAUGHTER] 笑声 [SONANT] 说话者发声系统产生的干扰音,例如咳嗽、喷嚏、清嗓声 [MUSIC] 音乐,包括哼唱声 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-16
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个普通话自然口语语音语料库,包含TXT格式的语音文件,记录了时间戳、说话人ID、性别和转写文本,并定义了特殊符号以标注非语言元素如笑声和重叠语音。数据集由Magic_Data发布,采用Apache License 2.0许可,适用于语音处理研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务