数据堂—1,420小时普通话自然语音手机采集数据
收藏魔搭社区2025-11-11 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/1420Hours-MandarinSpontaneousSpeechDataByMobilePhone
下载链接
链接失效反馈官方服务:
资源简介:
1,420小时普通话自然语音手机采集数据由700位普通话发音人参与录制,其中女性占比65%。无预制文本,录音人以自然方式进行手机通话,同时录制通话的内容。1,420小时普通话自然语音手机采集数据主要对近端语音进行标注,语音内容自然偏口语化
1,420 hours of Mandarin natural speech data collected via mobile devices, with 700 Mandarin-speaking speakers participating in the recording, 65% of whom are female. No pre-written scripts are employed; speakers conduct natural mobile phone conversations, and the conversation content is recorded simultaneously. This dataset mainly annotates the near-end speech, and the recorded speech content is colloquial and natural.
提供机构:
maas
创建时间:
2024-05-06
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集由数据堂发布,包含1420小时通过手机采集的普通话自然语音,涉及700名说话人(其中65%为女性),录音无预定义脚本,以16kHz、16位、单声道WAV格式存储。它旨在用于普通话语音识别模型的评估任务,主要标注近端语音,内容为自然对话和口语表达。
以上内容由遇见数据集搜集并总结生成



