ASR-RAMC-BIGCCSC: A CHINESE CONVERSATIONAL SPEECH CORPUS
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/ASR-RAMC-BIGCCSC-_A_CHINESE_CONVERSATIONAL_etc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包括351组多轮普通话对话,每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。
数据均于室内采集。声学环境为不足20平米的房间,混响时间(RT60)小于0.4秒。环境噪音水平低于40dB(A),录制过程中环境相对安静。所有录制的参与者都是以中文为母语的流利普通话使用者,他们的口音略有不同。
音频由Magic Data开发的手机应用程序录制,录制使用的手机均是主流的智能手机,其中安卓和IOS系统的使用比例约1:1。音频文件为16比特采样点,采样率为16KHz,录音质量比同类型的对话语音语料库(如HKUST/MTS、SwitchBoard、Fisher)更高。
转录文本由Magic Data人工标注并由专业检验员校对。MagicData-RAMC标注信息非常丰富,在语音内容转写结果的基础上,还标注了非语言信息,包括笑声、音乐声、噪声等。口语对话中常见的犹豫、重复等语言不流畅的现象也被标注出来。对话中每个说话人的起始时间戳也被标注出来,可以用于说话人日志相关的研究。
提供机构:
OpenDataLab
创建时间:
2023-01-12



