five

数据堂—593小时中国人说英语手机采集语音数据

收藏
魔搭社区2026-01-06 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/593Hour-ChineseSpeakingEnglishSpeechDataByMobilephone
下载链接
链接失效反馈
官方服务:
资源简介:
593小时中国人说英语手机采集语音数据是由3691名中国人参与录制的10万句常用英语句子,覆盖国内江苏、山东、北京、河南等方言区,符合中国人说英语的特定口音。录音文本涵盖常用英语句子,内容丰富,领域广泛,音素均衡。593小时中国人说英语手机采集语音数据可用于改善语音识别系统对中国人说英语的识别效果

The 593-hour mobile-collected speech dataset of Chinese-spoken English consists of 100,000 common English sentences recorded by 3,691 Chinese participants. It covers major Chinese dialect regions including Jiangsu, Shandong, Beijing, Henan and others, and conforms to the specific accent of Chinese speakers when speaking English. The recorded sentences cover a variety of daily English utterances, with rich content, wide domain coverage and balanced phoneme distribution. This dataset can be used to improve the recognition performance of speech recognition systems for English spoken by Chinese speakers.
提供机构:
maas
创建时间:
2024-05-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含593小时的中国人说英语语音数据,通过手机采集,由3,691名参与者录制了10万条常用英语句子,覆盖多个方言区域。它专为测试中文语音识别模型而设计,数据格式为16kHz、16bit的未压缩wav单声道音频。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务