five

数据堂—303小时中英混读手机采集语音数据

收藏
魔搭社区2026-05-15 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/303Hours_MixedSpeechWithChineseAndEnglishDataByMobilePhone
下载链接
链接失效反馈
官方服务:
资源简介:
该数据由1113名中国本土人员参与录制,口音覆盖七大方言区。录音文本均为中英混合句子,涵盖通用场景及人机交互场景,内容丰富,转写精准。可用于改善语音识别系统对中英混读语音的识别效果

This dataset was recorded with the participation of 1113 native Chinese speakers, whose accents cover all seven major Chinese dialect regions. All recorded utterances are Chinese-English code-switched sentences, covering both general daily scenarios and human-computer interaction scenarios, featuring rich content and highly accurate transcriptions. It can be utilized to improve the speech recognition performance of automatic speech recognition systems on Chinese-English mixed speech.
提供机构:
maas
创建时间:
2022-12-26
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个包含303小时中英混读语音数据的集合,由1113名中国本土人员录制,覆盖七大方言区,录音内容为中英混合句子,适用于改善语音识别系统对中英混读语音的识别效果。数据格式为16kHz的wav文件,标注准确率达97%,版权归数据堂所有,为商用数据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务