five

google/speech_commands

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/speech_commands
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
SpeechCommands数据集包含一秒钟的.wav音频文件,每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令,并由不同的说话者录制。数据集有两个版本,v0.01和v0.02,分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测,即通过分类将话语分类为预定义的单词集。数据集的语言为英语,数据集的创建目的是为了帮助训练简单的机器学习模型。

SpeechCommands数据集包含一秒钟的.wav音频文件,每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令,并由不同的说话者录制。数据集有两个版本,v0.01和v0.02,分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测,即通过分类将话语分类为预定义的单词集。数据集的语言为英语,数据集的创建目的是为了帮助训练简单的机器学习模型。
提供机构:
google
原始信息汇总

数据集概述

数据集名称: SpeechCommands

语言: 英语 (BCP-47 en)

多语言性: 单语

许可证: CC-BY-4.0

任务类别: 音频分类

任务ID: keyword-spotting

数据集大小:

  • 版本 v0.01: 10K<n<100K
  • 版本 v0.02: 100K<n<1M

数据集来源: 原始数据

数据集配置:

  • v0.01: 包含64,727个音频文件,发布于2017年8月3日。
  • v0.02: 包含105,829个音频文件,发布于2018年4月11日。

数据集特征:

  • file: 字符串类型,音频文件名。
  • audio: 音频类型,采样率为16000。
  • label: 类别标签类型,包含多个预定义的单词标签。
  • is_unknown: 布尔类型,指示单词是否为辅助词。
  • speaker_id: 字符串类型,说话者唯一ID。
  • utterance_id: 整数类型,同一说话者内单词发音的增量ID。

数据集分割:

  • v0.01:
    • 训练集: 51,093个样本
    • 验证集: 6,799个样本
    • 测试集: 3,081个样本
  • v0.02:
    • 训练集: 84,848个样本
    • 验证集: 9,982个样本
    • 测试集: 4,890个样本

下载大小与数据集大小:

  • v0.01: 下载大小1,454,702,755字节,数据集大小1,942,468,128字节。
  • v0.02: 下载大小2,285,975,869字节,数据集大小3,157,912,956字节。

数据集结构

数据实例:

  • 核心词实例: label 为单词,is_unknownFalse
  • 辅助词实例: label 为单词,is_unknownTrue
  • 背景噪声实例: label_silence_

数据字段:

  • file: 音频文件的相对路径。
  • audio: 包含音频文件路径、解码音频数组和采样率。
  • label: 音频样本中的单词或背景噪声类别。
  • is_unknown: 指示单词是否为辅助词。
  • speaker_id: 说话者的唯一ID。
  • utterance_id: 单词发音的增量ID。

数据分割:

  • 数据集有两个版本,v0.01v0.02,后者包含更多单词。

数据集创建

来源数据:

  • 音频文件通过众包收集。
  • 版本 v0.01 包含30个不同的单词。
  • 版本 v0.02 新增了5个单词。

注释过程:

  • 标签是预先准备的单词列表。
  • 说话者在五分钟内被提示单独说出单词。

个人和敏感信息:

  • 数据集包含在线捐赠的语音。
搜集汇总
数据集介绍
main_image_url
构建方式
SpeechCommands数据集通过众包方式收集,旨在构建一个用于有限词汇语音识别的音频文件集合。每个音频文件包含一个单字英语单词或背景噪音,时长为一秒。数据集的构建过程中,收集了大量不同说话者的语音样本,涵盖了30个核心单词和额外的辅助单词。这些单词通过五分钟的录音会话被记录下来,确保了数据的多样性和代表性。此外,数据集还包括了模拟噪音的长时间音频片段,以增强模型的鲁棒性。
使用方法
SpeechCommands数据集适用于关键词检测任务,用户可以通过加载数据集并使用其提供的音频文件和标签进行模型训练。数据集的音频文件以16kHz的采样率进行编码,用户可以直接访问这些音频文件进行预处理和特征提取。此外,数据集提供了训练、验证和测试三个子集,用户可以根据需要选择合适的子集进行模型训练和评估。为了提高模型的鲁棒性,用户还可以利用数据集中的背景噪音片段进行数据增强。
背景与挑战
背景概述
语音命令数据集(SpeechCommands)由Google于2017年和2018年分别发布,旨在为有限词汇的语音识别任务提供丰富的音频数据。该数据集的核心研究问题是如何在嘈杂环境中准确识别预定义的语音命令,从而推动小型机器学习模型的训练与评估。通过众包方式收集,数据集包含了超过10万条一秒钟的音频文件,涵盖了30多个常用英语单词和背景噪音。这一数据集的发布显著推动了语音识别技术的发展,特别是在嵌入式设备上的应用,因其对模型大小和推理时间的严格要求。
当前挑战
语音命令数据集在构建过程中面临多重挑战。首先,如何在众包环境中确保音频数据的质量和一致性是一个重要问题。其次,数据集中包含了大量的背景噪音和未知词汇,这增加了模型区分核心命令与非命令词汇的难度。此外,数据集的多样性,包括不同说话者的语音特征和口音,也对模型的泛化能力提出了挑战。最后,如何在保持高准确率的同时,优化模型的大小和推理速度,以适应资源受限的嵌入式设备,是该数据集应用中的另一大难题。
常用场景
经典使用场景
在语音识别领域,SpeechCommands数据集的经典使用场景主要集中在关键词检测任务上。该数据集包含了一系列简短的音频文件,每个文件对应一个特定的英文单词或背景噪音。通过训练模型,可以实现对预定义关键词的快速识别,这对于需要实时响应的语音控制系统至关重要。
解决学术问题
SpeechCommands数据集解决了语音识别领域中有限词汇量下的关键词检测问题。通过提供多样化的语音样本和背景噪音,该数据集帮助研究人员开发和评估能够在低资源环境下高效运行的语音识别模型。这对于推动语音识别技术在嵌入式设备和物联网中的应用具有重要意义。
实际应用
在实际应用中,SpeechCommands数据集被广泛用于开发智能家居设备、语音助手和可穿戴设备的语音控制功能。例如,用户可以通过简单的语音命令控制家电的开关、调节音量或导航设备。此外,该数据集还支持开发针对特定环境的语音识别系统,如车载语音控制和工业环境中的语音指令识别。
数据集最近研究
最新研究方向
在语音识别领域,SpeechCommands数据集的最新研究方向主要集中在提升关键词检测(keyword-spotting)系统的性能。研究者们致力于优化模型的准确性、模型大小和推理时间,以实现更高效的关键词识别。此外,随着边缘计算和物联网设备的普及,如何在资源受限的环境中部署这些模型也成为了一个重要的研究课题。通过引入新的神经网络架构和优化算法,研究者们旨在提高模型的实时性和鲁棒性,从而推动语音识别技术在智能家居、可穿戴设备等领域的广泛应用。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作