数据堂—200人中文唤醒词手机采集语音数据
收藏魔搭社区2025-12-26 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/200People-ChineseWake-upWordsSpeechDataByMobilePhone
下载链接
链接失效反馈官方服务:
资源简介:
中文唤醒词手机语音采集数据,采集自200 人,每人180句,共计时长24.5小时;录制人员男女比例均匀;采集环境多样;录制文本包括唤醒词及口语化句子,录制人员来自七大方言区
Chinese Wake-up Word Mobile Phone Speech Collection Dataset. Collected from 200 participants with 180 utterances per individual, the dataset totals 24.5 hours of audio duration. The participants have an evenly balanced gender ratio, and the recordings were made in diverse environments. The collected content includes wake-up words and colloquial sentences, with all participants coming from seven major Chinese dialect regions.
提供机构:
maas
创建时间:
2024-05-06
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于中文语音识别模型测试的商业语音数据集,包含200人通过手机采集的中文唤醒词语音,总时长24.5小时,具有男女比例均衡、采集环境多样和说话者覆盖中国七大方言区的特点。数据以16kHz单声道WAV格式提供,包含唤醒词如'你好小E'和口语化句子,适用于语音唤醒和识别任务的模型验证。
以上内容由遇见数据集搜集并总结生成



