multilingual-speech-commands-15lang
收藏Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/artur-muratov/multilingual-speech-commands-15lang
下载链接
链接失效反馈官方服务:
资源简介:
多语言语音命令数据集(15种语言,增强版)包含15种语言的增强语音命令样本,这些样本源自多个公开数据集,并且仅包含与Google Speech Commands (GSC) 词汇表重叠的命令,适合进行与GSC风格分类一致的多语言关键词定位任务。数据集中的音频样本经过标准化音频技术增强,以提升模型鲁棒性。
创建时间:
2025-05-27
原始信息汇总
Multilingual Speech Commands Dataset (15 Languages, Augmented) 数据集概述
基本信息
- 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
- 语言: 英语、哈萨克语、俄语、鞑靼语、阿拉伯语、土耳其语、法语、德语、西班牙语、意大利语、加泰罗尼亚语、波斯语、波兰语、荷兰语、卢旺达语
- 标签: speech, audio, keyword-spotting, speech-commands, multilingual, low-resource, dataset, augmentation
- 数据集名称: Multilingual Speech Commands Dataset (15 Languages, Augmented)
数据集描述
- 包含15种语言的增强语音命令样本,源自多个公共数据集。
- 仅包含与Google Speech Commands (GSC)词汇重叠的命令,适用于与GSC风格分类对齐的多语言关键词识别任务。
- 音频样本通过标准音频技术增强(如时间偏移、噪声注入、音高变化),以提高模型的鲁棒性。
数据集结构
- 每个语音命令一个文件夹(例如
yes/、no/、go/、stop/等)。 - 包含以下元数据文件:
training_list.txtvalidation_list.txttesting_list.txtlabel_map.jsonlang_map.json
引用文献
- Warden, P. (2018). Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition. arXiv:1804.03209.
- Kuzdeuov, A., et al. (2024). An Open-Source Tatar Speech Commands Dataset for IoT and Robotics Applications. IECON.
- Kuzdeuov, A., et al. (2023). Speech Command Recognition: Text-to-Speech and Speech Corpus Scraping Are All You Need. RAAI.
- Kuzdeuov, A., & Varol, H. A. (2025). Multilingual Speech Command Recognition for Voice Controlled Robots and Smart Systems. ICCAR.
- Mazumder, M., et al. (2021). Multilingual Spoken Words Corpus. NeurIPS.
- Ghandoura, A., et al. (2021). Building and Benchmarking an Arabic Speech Commands Dataset for Small-Footprint Keyword Spotting. Engineering Applications of Artificial Intelligence.
- Kurtkaya, M. (2021). Turkish Speech Command Dataset. Kaggle.
致谢
数据集基于上述原始数据集作者公开的数据,感谢他们支持开放研究。
搜集汇总
数据集介绍

构建方式
该数据集通过整合多个公开语音命令数据集构建而成,精选了与Google Speech Commands词汇表重叠的指令样本,涵盖15种语言。采用标准音频增强技术对原始样本进行处理,包括时间偏移、噪声注入和音高变化等方法,显著提升了数据的多样性和鲁棒性。数据集按照指令标签分文件夹存储,并配套提供训练集、验证集和测试集的元数据文件,为研究者提供了完整的实验框架。
使用方法
研究者可通过分文件夹存储的音频样本快速构建语音指令识别系统,利用配套的元数据文件实现数据集的标准化分割。训练时建议结合语言映射文件进行多语言联合训练或单语言微调,以探索跨语言迁移学习的可能性。评估阶段可使用预设的测试集划分进行性能验证,标签映射文件则确保了不同语言指令类别的统一评价标准。
背景与挑战
背景概述
多语言语音命令数据集(Multilingual Speech Commands Dataset)由Kuzdeuov、Varol等研究人员于2025年构建,旨在解决多语言环境下的关键词识别问题。该数据集整合了15种语言的语音命令样本,包括英语、哈萨克语、俄语等,涵盖了物联网和机器人应用中的常见指令。通过采用与Google Speech Commands(GSC)兼容的词汇表,该数据集为多语言语音识别研究提供了标准化的基准,显著推动了低资源语言在语音技术领域的发展。其数据增强技术的应用进一步提升了模型的鲁棒性,为跨语言语音识别研究提供了重要支持。
当前挑战
构建多语言语音命令数据集面临多重挑战。在领域问题方面,不同语言的语音特性差异显著,如何实现跨语言的关键词识别成为核心难题。此外,低资源语言的样本稀缺性限制了模型的泛化能力。在数据构建过程中,语音数据的采集与标注需克服方言多样性和背景噪声干扰。数据增强技术的应用虽然提升了样本多样性,但也可能引入失真,影响模型训练的稳定性。如何平衡数据增强的效果与语音质量,是该数据集构建中的关键挑战。
常用场景
经典使用场景
在语音识别领域,多语言语音命令数据集(multilingual-speech-commands-15lang)为研究者提供了一个标准化的测试平台,尤其适用于跨语言关键词检测任务。该数据集涵盖了15种语言的语音命令,与Google Speech Commands(GSC)词汇对齐,使得研究者能够在统一的框架下评估不同语言模型的性能。通过音频增强技术(如时间偏移、噪声注入和音高变化),数据集进一步提升了模型的鲁棒性,成为多语言语音识别研究的基准工具。
解决学术问题
该数据集有效解决了多语言环境下语音命令识别的研究难题。传统语音识别模型往往局限于单一语言,难以适应全球化应用场景。通过整合15种语言的语音命令,数据集为跨语言模型训练和评估提供了丰富资源。其与GSC词汇的对齐特性,使得研究者能够直接比较不同语言模型的性能差异,推动了低资源语言语音识别技术的发展。数据集的增强处理进一步提升了模型在噪声环境下的泛化能力,为语音识别鲁棒性研究提供了重要支持。
实际应用
在实际应用中,该数据集为智能家居、物联网设备和机器人控制等场景提供了多语言语音交互的基础。例如,智能音箱可以通过该数据集训练支持多种语言的语音命令识别功能,满足不同地区用户的需求。在工业自动化领域,多语言语音控制能够提高设备的易用性和适应性,尤其适用于跨国企业或多元文化工作环境。数据集的低资源语言覆盖(如哈萨克语、塔塔尔语等)也为边缘计算设备的小型化语音模型开发提供了可能。
数据集最近研究
最新研究方向
在语音识别领域,多语言语音命令数据集的研究正逐渐成为热点。该数据集涵盖了15种语言,包括英语、哈萨克语、俄语、阿拉伯语等,为多语言关键词识别任务提供了丰富的资源。近年来,随着智能家居、物联网和机器人技术的快速发展,多语言语音命令识别在跨语言交互中的需求日益增长。研究人员通过音频增强技术(如时间偏移、噪声注入和音高变化)提升了模型的鲁棒性,使其在低资源语言环境下表现更优。该数据集的应用不仅推动了多语言语音识别技术的发展,还为跨文化智能系统的设计提供了重要支持。
以上内容由遇见数据集搜集并总结生成



