five

数据堂—1,652小时粤语手机采集语音数据

收藏
魔搭社区2026-05-20 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/1652Hours_CantoneseDialectSpeechDataByMobilePhone
下载链接
链接失效反馈
官方服务:
资源简介:
1,652小时粤语手机采集语音数据包括4888名来自广东省发音人,在安静的室内环境下的录音数据。录音内容广泛,覆盖50 万句常用口语语句,包括微博高频词、日常用语等。1,652小时粤语手机采集语音数据的句子平均重复次数1.5次,平均句长12.5字。匹配主流安卓、苹果系统手机

This dataset contains 1,652 hours of Cantonese speech data collected via mobile phones, with recordings made by 4,888 speakers from Guangdong Province in quiet indoor environments. The recorded content is extensive, covering 500,000 commonly used spoken sentences including high-frequency microblog terms and daily conversational expressions. For this dataset, the average repetition count per sentence is 1.5 times, and the average sentence length is 12.5 Chinese characters. It is compatible with mainstream Android and Apple smartphones.
提供机构:
maas
创建时间:
2024-05-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含1,652小时的粤语手机采集语音数据,用于中文语音识别模型测试。数据由4,888名说话人在安静室内环境下录制,覆盖500,000个常用口语句子,采用16kHz WAV格式。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务