multilingual-speech-commands-15lang

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/artur-muratov/multilingual-speech-commands-15lang

下载链接

链接失效反馈

官方服务：

资源简介：

多语言语音命令数据集（15种语言，增强版）包含15种语言的增强语音命令样本，这些样本源自多个公开数据集，并且仅包含与Google Speech Commands (GSC) 词汇表重叠的命令，适合进行与GSC风格分类一致的多语言关键词定位任务。数据集中的音频样本经过标准化音频技术增强，以提升模型鲁棒性。

创建时间：

2025-05-27

原始信息汇总

Multilingual Speech Commands Dataset (15 Languages, Augmented) 数据集概述

基本信息

许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
语言: 英语、哈萨克语、俄语、鞑靼语、阿拉伯语、土耳其语、法语、德语、西班牙语、意大利语、加泰罗尼亚语、波斯语、波兰语、荷兰语、卢旺达语
标签: speech, audio, keyword-spotting, speech-commands, multilingual, low-resource, dataset, augmentation
数据集名称: Multilingual Speech Commands Dataset (15 Languages, Augmented)

数据集描述

包含15种语言的增强语音命令样本，源自多个公共数据集。
仅包含与Google Speech Commands (GSC)词汇重叠的命令，适用于与GSC风格分类对齐的多语言关键词识别任务。
音频样本通过标准音频技术增强（如时间偏移、噪声注入、音高变化），以提高模型的鲁棒性。

数据集结构

每个语音命令一个文件夹（例如yes/、no/、go/、stop/等）。
包含以下元数据文件：
- training_list.txt
- validation_list.txt
- testing_list.txt
- label_map.json
- lang_map.json

引用文献

Warden, P. (2018). Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition. arXiv:1804.03209.
Kuzdeuov, A., et al. (2024). An Open-Source Tatar Speech Commands Dataset for IoT and Robotics Applications. IECON.
Kuzdeuov, A., et al. (2023). Speech Command Recognition: Text-to-Speech and Speech Corpus Scraping Are All You Need. RAAI.
Kuzdeuov, A., & Varol, H. A. (2025). Multilingual Speech Command Recognition for Voice Controlled Robots and Smart Systems. ICCAR.
Mazumder, M., et al. (2021). Multilingual Spoken Words Corpus. NeurIPS.
Ghandoura, A., et al. (2021). Building and Benchmarking an Arabic Speech Commands Dataset for Small-Footprint Keyword Spotting. Engineering Applications of Artificial Intelligence.
Kurtkaya, M. (2021). Turkish Speech Command Dataset. Kaggle.

致谢

数据集基于上述原始数据集作者公开的数据，感谢他们支持开放研究。

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个公开语音命令数据集构建而成，精选了与Google Speech Commands词汇表重叠的指令样本，涵盖15种语言。采用标准音频增强技术对原始样本进行处理，包括时间偏移、噪声注入和音高变化等方法，显著提升了数据的多样性和鲁棒性。数据集按照指令标签分文件夹存储，并配套提供训练集、验证集和测试集的元数据文件，为研究者提供了完整的实验框架。

使用方法

研究者可通过分文件夹存储的音频样本快速构建语音指令识别系统，利用配套的元数据文件实现数据集的标准化分割。训练时建议结合语言映射文件进行多语言联合训练或单语言微调，以探索跨语言迁移学习的可能性。评估阶段可使用预设的测试集划分进行性能验证，标签映射文件则确保了不同语言指令类别的统一评价标准。

背景与挑战

背景概述

多语言语音命令数据集（Multilingual Speech Commands Dataset）由Kuzdeuov、Varol等研究人员于2025年构建，旨在解决多语言环境下的关键词识别问题。该数据集整合了15种语言的语音命令样本，包括英语、哈萨克语、俄语等，涵盖了物联网和机器人应用中的常见指令。通过采用与Google Speech Commands（GSC）兼容的词汇表，该数据集为多语言语音识别研究提供了标准化的基准，显著推动了低资源语言在语音技术领域的发展。其数据增强技术的应用进一步提升了模型的鲁棒性，为跨语言语音识别研究提供了重要支持。

当前挑战

构建多语言语音命令数据集面临多重挑战。在领域问题方面，不同语言的语音特性差异显著，如何实现跨语言的关键词识别成为核心难题。此外，低资源语言的样本稀缺性限制了模型的泛化能力。在数据构建过程中，语音数据的采集与标注需克服方言多样性和背景噪声干扰。数据增强技术的应用虽然提升了样本多样性，但也可能引入失真，影响模型训练的稳定性。如何平衡数据增强的效果与语音质量，是该数据集构建中的关键挑战。

常用场景

经典使用场景

在语音识别领域，多语言语音命令数据集（multilingual-speech-commands-15lang）为研究者提供了一个标准化的测试平台，尤其适用于跨语言关键词检测任务。该数据集涵盖了15种语言的语音命令，与Google Speech Commands（GSC）词汇对齐，使得研究者能够在统一的框架下评估不同语言模型的性能。通过音频增强技术（如时间偏移、噪声注入和音高变化），数据集进一步提升了模型的鲁棒性，成为多语言语音识别研究的基准工具。

解决学术问题

该数据集有效解决了多语言环境下语音命令识别的研究难题。传统语音识别模型往往局限于单一语言，难以适应全球化应用场景。通过整合15种语言的语音命令，数据集为跨语言模型训练和评估提供了丰富资源。其与GSC词汇的对齐特性，使得研究者能够直接比较不同语言模型的性能差异，推动了低资源语言语音识别技术的发展。数据集的增强处理进一步提升了模型在噪声环境下的泛化能力，为语音识别鲁棒性研究提供了重要支持。

实际应用

在实际应用中，该数据集为智能家居、物联网设备和机器人控制等场景提供了多语言语音交互的基础。例如，智能音箱可以通过该数据集训练支持多种语言的语音命令识别功能，满足不同地区用户的需求。在工业自动化领域，多语言语音控制能够提高设备的易用性和适应性，尤其适用于跨国企业或多元文化工作环境。数据集的低资源语言覆盖（如哈萨克语、塔塔尔语等）也为边缘计算设备的小型化语音模型开发提供了可能。

数据集最近研究