数据堂—738小时维语手机采集语音数据
收藏魔搭社区2025-12-04 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/738Hours_UyghurSpeechDataByMobilePhone
下载链接
链接失效反馈官方服务:
资源简介:
738小时维语手机采集语音数据由2,058名来自维吾尔族聚居区的人参与录制,男女均衡。录音内容为30万维语口语化句子,录音环境为安静的室内。738小时维语手机采集语音数据所有句子均经过人工精准转写,并标注了噪音标识。
738-hour Uyghur speech data collected via mobile phones was recorded by 2,058 participants from Uyghur-concentrated regions, with an equal gender distribution. The dataset includes 300,000 colloquial Uyghur sentences, and all recordings were carried out in quiet indoor environments. All sentences in this dataset have undergone precise manual transcription and are annotated with noise labels.
提供机构:
maas
创建时间:
2024-05-06
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含738小时的维语手机采集语音数据,由2058名参与者在安静室内环境下录制,涵盖30万句口语化维语句子,用于中文语音识别模型的测试任务。数据格式为16kHz、16bit的单声道WAV文件,所有句子均已人工准确转录并标注噪声指标。
以上内容由遇见数据集搜集并总结生成



