数据堂—370小时马来语手机采集语音数据
收藏魔搭社区2025-11-26 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/370Hours-MalaySpeechDataByMobilePhone
下载链接
链接失效反馈官方服务:
资源简介:
370小时马来语手机采集语音数据是由675名马来西亚人参与录制,口音正宗。录音文本由语言专家参与设计,涵盖通用、交互、车载、家居等多类别,内容丰富。文本经过人工校对,准确率高。匹配主流安卓、苹果系统手机。370小时马来语手机采集语音数据可应用于语音识别、机器翻译等场景
The 370-hour Malay mobile-collected speech dataset was recorded by 675 Malaysian participants, featuring authentic local accents. The corresponding transcribed texts were designed by language experts, covering multiple categories including general, conversational, in-vehicle and smart home scenarios with rich and diverse content. All texts have undergone manual proofreading to guarantee high accuracy. It is compatible with mainstream Android and iOS mobile devices. This dataset can be applied to scenarios such as speech recognition and machine translation.
提供机构:
maas
创建时间:
2024-05-06
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含370小时马来语手机采集语音数据,由675名马来西亚参与者录制,确保真实口音,录音文本涵盖通用、交互、车载及家庭命令等多样类别,并经过人工校对。数据格式为16kHz、16bit、wav、单声道,适用于语音识别和机器翻译等任务,版权归DataTang所有,支持商业使用。
以上内容由遇见数据集搜集并总结生成



