five

Mandarin Chinese Scripted Speech Corpus – Keyword Spotting

收藏
github2022-11-01 更新2024-05-31 收录
下载链接:
https://github.com/magichub-opensource/Magichub-Awesome-Datasets-and-Competitions
下载链接
链接失效反馈
官方服务:
资源简介:
这个开源数据集由6小时转录的普通话中文脚本的关键字点燃,快速,正常和慢速,其中包含37个发言者的11,030个发音。

This open-source dataset is ignited by 6 hours of transcribed Mandarin Chinese scripts, featuring keywords spoken at fast, normal, and slow speeds, encompassing 11,030 utterances from 37 speakers.
创建时间:
2021-12-20
原始信息汇总

数据集概述

中文普通话朗读音频数据集—唤醒词

  • 时长: 6小时
  • 内容: 普通话中文脚本的关键字点燃,快速、正常和慢速
  • 发音数量: 11,030
  • 说话人数量: 37

英语对话音频数据集-电话信道

  • 时长: 5.04小时
  • 内容: 英语电话信道对话
  • 对话数量: 13

中国人说英语朗读音频数据集-儿童

  • 时长: 1.44小时
  • 内容: 儿童朗读的普通话和英语脚本
  • 发音数量: 2,266
  • 说话人数量: 10(年龄7岁以下)

巴基斯坦英语朗读数据集—日常用语

  • 时长: 4小时
  • 内容: 巴基斯坦英语日常用语
  • 发音数量: 2,191
  • 说话人数量: 7

法语对话音频数据集

  • 时长: 1.1小时
  • 内容: 法语特定主题对话
  • 对话数量: 6(两组说话人之间)

韩语对话音频数据集

  • 时长: 5.22小时
  • 内容: 韩语特定主题对话
  • 对话数量: 22(七组说话人之间)

德语对话音频数据集

  • 时长: 6.55小时
  • 内容: 德语特定主题对话
  • 对话数量: 10(两组说话人之间)

德语朗读音频数据集-命令控制

  • 时长: 0.71小时
  • 内容: 德语命令和查询
  • 发音数量: 597
  • 说话人数量: 10

日语朗读音频数据集-日常用语

  • 时长: 18小时
  • 内容: 日语日常用语
  • 发音数量: 17,372
  • 说话人数量: 37

意大利语朗读音频数据集—命令控制

  • 时长: 0.9小时
  • 内容: 意大利语命令和查询
  • 发音数量: 982
  • 说话人数量: 10

意大利语对话音频数据集

  • 时长: 10.43小时
  • 内容: 意大利语特定主题对话
  • 对话数量: 28(三组说话人之间)

西班牙语对话音频数据集

  • 时长: 5.56小时
  • 内容: 西班牙半岛地区西班牙语特定主题对话
  • 对话数量: 17(四组说话人之间)

美洲西班牙语朗读音频数据集-日常用语

  • 时长: 4.08小时
  • 内容: 美洲西班牙语日常用语
  • 发音数量: 5,159
  • 说话人数量: 10

俄语朗读音频数据集-日常用语

  • 时长: 6.57小时
  • 内容: 俄语日常用语
  • 发音数量: 3,842
  • 说话人数量: 10

印尼语对话音频数据集

  • 时长: 4.54小时
  • 内容: 印尼语特定主题对话
  • 对话数量: 7(两组说话人之间)

印尼语朗读音频数据集-日常用语

  • 时长: 3.5小时
  • 内容: 印尼语日常用语
  • 发音数量: 3,296
  • 说话人数量: 10

中国英语平行语料冰雪运动新闻

  • 内容: 100条新闻资料

中国英语并行语料库 - 金融类

  • 内容: 百句中的汉语平行语料库,关于金融领域日常使用的句子

英语客户服务方案文本语料库 - 医疗保健

  • 内容: 50个与英语文本的问答互动,关于医疗保健相关的客户服务场景

韩语智能家居命令控制语料库

  • 内容: 100条韩语命令控制相关文本语料

日语智能家居命令控制语料库

  • 内容: 100条日语命令控制相关文本语料
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由37名普通话母语者朗读的11,030条语音片段构成,总时长为6小时。语音内容涵盖了快速、正常和慢速三种语速的关键词唤醒场景。所有语音均经过专业转录,确保了数据的准确性和一致性。数据采集过程中,参与者被要求在不同语速下朗读特定脚本,以模拟真实场景中的关键词唤醒需求。
使用方法
该数据集适用于语音识别和关键词唤醒技术的研究与开发。用户可以通过下载数据集,利用其丰富的语音样本进行模型训练和测试。数据集中的语音片段已按语速分类,便于用户根据需求选择特定语速的样本进行实验。此外,数据集提供了详细的转录文本,用户可结合文本信息进行更深入的语音分析。
背景与挑战
背景概述
Mandarin Chinese Scripted Speech Corpus – Keyword Spotting数据集由Magic Data于近年发布,旨在为普通话关键词识别领域提供高质量的语音数据支持。该数据集包含6小时的转录语音,涵盖了快速、正常和慢速三种语速下的11,030条语音片段,由37名不同背景的说话者贡献。该数据集的发布为语音识别、关键词检测等领域的研究提供了重要的基础资源,尤其在多语速、多说话者场景下的模型训练与评估中展现了其独特价值。通过开源共享,该数据集推动了普通话语音处理技术的进步,并为相关领域的学术研究与工业应用提供了有力支持。
当前挑战
该数据集在构建与应用过程中面临多重挑战。首先,普通话作为一种声调语言,其语音识别任务本身具有较高的复杂性,尤其是在不同语速和说话者口音变化的情况下,关键词检测的准确性难以保证。其次,数据集的构建需要确保语音样本的多样性与代表性,涵盖不同年龄、性别和口音的说话者,这对数据采集与标注提出了较高要求。此外,如何在有限的数据量下提升模型的泛化能力,避免过拟合,也是该数据集应用中的一大挑战。这些挑战不仅影响了数据集的构建质量,也对后续的模型训练与优化提出了更高的技术要求。
常用场景
经典使用场景
在语音识别和自然语言处理领域,Mandarin Chinese Scripted Speech Corpus – Keyword Spotting数据集被广泛应用于唤醒词检测和语音指令识别的研究中。该数据集包含了不同语速的普通话朗读音频,能够有效支持模型在不同语速条件下的性能测试和优化。
解决学术问题
该数据集解决了语音识别领域中唤醒词检测的关键问题,尤其是在多语速、多说话人场景下的模型泛化能力。通过提供丰富的语料和多样化的语音样本,研究者能够更准确地评估和提升语音识别系统的鲁棒性和准确性。
实际应用
在实际应用中,该数据集被广泛用于智能家居、语音助手和车载语音系统的唤醒词检测功能开发。通过使用该数据集,开发者能够训练出在不同语速和环境下表现稳定的唤醒词检测模型,从而提升用户体验。
数据集最近研究
最新研究方向
近年来,随着智能语音技术的迅猛发展,普通话关键词唤醒数据集(Mandarin Chinese Scripted Speech Corpus – Keyword Spotting)在语音识别和自然语言处理领域的研究中占据了重要地位。该数据集包含了6小时的普通话朗读音频,涵盖了快速、正常和慢速三种语速,并由37名说话人贡献了11,030条语音样本。这一数据集为语音唤醒技术的优化提供了丰富的训练资源,尤其是在多语速和多说话人场景下的模型泛化能力研究方面。当前的研究热点集中在如何通过深度学习模型提升关键词唤醒的准确性和鲁棒性,特别是在嘈杂环境下的表现。此外,该数据集还被广泛应用于语音合成和语音情感分析等领域,推动了智能语音交互系统的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作