Mandarin Chinese Scripted Speech Corpus – Keyword Spotting

github2022-11-01 更新2024-05-31 收录

下载链接：

https://github.com/magichub-opensource/Magichub-Awesome-Datasets-and-Competitions

下载链接

链接失效反馈

官方服务：

资源简介：

这个开源数据集由6小时转录的普通话中文脚本的关键字点燃，快速，正常和慢速，其中包含37个发言者的11,030个发音。

This open-source dataset is ignited by 6 hours of transcribed Mandarin Chinese scripts, featuring keywords spoken at fast, normal, and slow speeds, encompassing 11,030 utterances from 37 speakers.

创建时间：

2021-12-20

原始信息汇总

数据集概述

中文普通话朗读音频数据集—唤醒词

时长: 6小时
内容: 普通话中文脚本的关键字点燃，快速、正常和慢速
发音数量: 11,030
说话人数量: 37

英语对话音频数据集-电话信道

时长: 5.04小时
内容: 英语电话信道对话
对话数量: 13

中国人说英语朗读音频数据集-儿童

时长: 1.44小时
内容: 儿童朗读的普通话和英语脚本
发音数量: 2,266
说话人数量: 10（年龄7岁以下）

巴基斯坦英语朗读数据集—日常用语

时长: 4小时
内容: 巴基斯坦英语日常用语
发音数量: 2,191
说话人数量: 7

法语对话音频数据集

时长: 1.1小时
内容: 法语特定主题对话
对话数量: 6（两组说话人之间）

韩语对话音频数据集

时长: 5.22小时
内容: 韩语特定主题对话
对话数量: 22（七组说话人之间）

德语对话音频数据集

时长: 6.55小时
内容: 德语特定主题对话
对话数量: 10（两组说话人之间）

德语朗读音频数据集-命令控制

时长: 0.71小时
内容: 德语命令和查询
发音数量: 597
说话人数量: 10

日语朗读音频数据集-日常用语

时长: 18小时
内容: 日语日常用语
发音数量: 17,372
说话人数量: 37

意大利语朗读音频数据集—命令控制

时长: 0.9小时
内容: 意大利语命令和查询
发音数量: 982
说话人数量: 10

意大利语对话音频数据集

时长: 10.43小时
内容: 意大利语特定主题对话
对话数量: 28（三组说话人之间）

西班牙语对话音频数据集

时长: 5.56小时
内容: 西班牙半岛地区西班牙语特定主题对话
对话数量: 17（四组说话人之间）

美洲西班牙语朗读音频数据集-日常用语

时长: 4.08小时
内容: 美洲西班牙语日常用语
发音数量: 5,159
说话人数量: 10

俄语朗读音频数据集-日常用语

时长: 6.57小时
内容: 俄语日常用语
发音数量: 3,842
说话人数量: 10

印尼语对话音频数据集

时长: 4.54小时
内容: 印尼语特定主题对话
对话数量: 7（两组说话人之间）

印尼语朗读音频数据集-日常用语

时长: 3.5小时
内容: 印尼语日常用语
发音数量: 3,296
说话人数量: 10

中国英语平行语料冰雪运动新闻

内容: 100条新闻资料

中国英语并行语料库 - 金融类

内容: 百句中的汉语平行语料库，关于金融领域日常使用的句子

英语客户服务方案文本语料库 - 医疗保健

内容: 50个与英语文本的问答互动，关于医疗保健相关的客户服务场景

韩语智能家居命令控制语料库

内容: 100条韩语命令控制相关文本语料

日语智能家居命令控制语料库

内容: 100条日语命令控制相关文本语料

搜集汇总

数据集介绍

构建方式

该数据集由37名普通话母语者朗读的11,030条语音片段构成，总时长为6小时。语音内容涵盖了快速、正常和慢速三种语速的关键词唤醒场景。所有语音均经过专业转录，确保了数据的准确性和一致性。数据采集过程中，参与者被要求在不同语速下朗读特定脚本，以模拟真实场景中的关键词唤醒需求。

使用方法

该数据集适用于语音识别和关键词唤醒技术的研究与开发。用户可以通过下载数据集，利用其丰富的语音样本进行模型训练和测试。数据集中的语音片段已按语速分类，便于用户根据需求选择特定语速的样本进行实验。此外，数据集提供了详细的转录文本，用户可结合文本信息进行更深入的语音分析。

背景与挑战

背景概述

Mandarin Chinese Scripted Speech Corpus – Keyword Spotting数据集由Magic Data于近年发布，旨在为普通话关键词识别领域提供高质量的语音数据支持。该数据集包含6小时的转录语音，涵盖了快速、正常和慢速三种语速下的11,030条语音片段，由37名不同背景的说话者贡献。该数据集的发布为语音识别、关键词检测等领域的研究提供了重要的基础资源，尤其在多语速、多说话者场景下的模型训练与评估中展现了其独特价值。通过开源共享，该数据集推动了普通话语音处理技术的进步，并为相关领域的学术研究与工业应用提供了有力支持。

当前挑战

该数据集在构建与应用过程中面临多重挑战。首先，普通话作为一种声调语言，其语音识别任务本身具有较高的复杂性，尤其是在不同语速和说话者口音变化的情况下，关键词检测的准确性难以保证。其次，数据集的构建需要确保语音样本的多样性与代表性，涵盖不同年龄、性别和口音的说话者，这对数据采集与标注提出了较高要求。此外，如何在有限的数据量下提升模型的泛化能力，避免过拟合，也是该数据集应用中的一大挑战。这些挑战不仅影响了数据集的构建质量，也对后续的模型训练与优化提出了更高的技术要求。

常用场景

经典使用场景

在语音识别和自然语言处理领域，Mandarin Chinese Scripted Speech Corpus – Keyword Spotting数据集被广泛应用于唤醒词检测和语音指令识别的研究中。该数据集包含了不同语速的普通话朗读音频，能够有效支持模型在不同语速条件下的性能测试和优化。

解决学术问题

该数据集解决了语音识别领域中唤醒词检测的关键问题，尤其是在多语速、多说话人场景下的模型泛化能力。通过提供丰富的语料和多样化的语音样本，研究者能够更准确地评估和提升语音识别系统的鲁棒性和准确性。

实际应用

在实际应用中，该数据集被广泛用于智能家居、语音助手和车载语音系统的唤醒词检测功能开发。通过使用该数据集，开发者能够训练出在不同语速和环境下表现稳定的唤醒词检测模型，从而提升用户体验。

数据集最近研究