five

数据堂—2,028小时普通话手机采集语音数据

收藏
魔搭社区2026-05-22 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/2028Hours-MandarinSpeechDataByMobilePhone
下载链接
链接失效反馈
官方服务:
资源简介:
2,028小时普通话手机采集语音数据是由4,787名中国本土发音人参与录制,覆盖多个省份,男女均衡。语音均采用标准普通话录制。录音内容丰富,涵盖手机语音助手交互、智能家居命令、车载命令词、数字等多种类别。2,028小时普通话手机采集语音数据可以精准匹配智能家居、智能车载等实际应用场景。

The 2,028-hour Mandarin speech dataset collected via mobile devices is recorded by 4,787 native Chinese speakers, covering multiple provinces with a balanced gender ratio. All recordings are made in standard Mandarin. The content of the recordings is diverse, covering various categories including mobile voice assistant interactions, smart home commands, in-vehicle command terms, digits, and more. This dataset can accurately match practical application scenarios such as smart home and intelligent in-vehicle systems.
提供机构:
maas
创建时间:
2022-12-27
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含2,028小时通过手机采集的标准普通话语音数据,由4,787名母语说话者录制,性别分布均衡,内容涵盖语音助手交互、智能家居命令等多种实际应用场景。数据格式为16kHz、16位未压缩的.wav单声道文件,标注准确率不低于95%,适用于测试标准普通话语音识别模型,版权归DataTang所有,为商业数据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务