SpeechCommandsZeroshotv0.01
收藏Hugging Face2026-01-17 更新2026-01-18 收录
下载链接:
https://huggingface.co/datasets/mteb/SpeechCommandsZeroshotv0.01
下载链接
链接失效反馈官方服务:
资源简介:
声音分类/关键词识别数据集。这是一组包含单个英语单词或背景噪声的一秒钟音频片段。这些单词来自一小部分命令,如'yes'、'no'和'stop'等,由不同的说话者发音。数据集共有10个标签/命令用于关键词识别,以及30个标签用于其他辅助任务。
创建时间:
2026-01-07
原始信息汇总
SpeechCommandsZeroshotv0.01 数据集概述
基本信息
- 数据集名称: SpeechCommandsZeroshotv0.01
- 创建者: 人工标注
- 语言: 英语
- 许可证: CC-BY-4.0
- 多语言性: 单语言
- 来源数据集: google/speech_commands
- 任务类别: 其他、文本到音频
- 标签: mteb、audio、text
数据集描述
这是一个用于声音分类/关键词检测的数据集。数据包含一系列时长为一秒的音频片段,每个片段包含一个单独的英语口语单词或背景噪音。这些单词来自一小部分命令,例如“yes”、“no”和“stop”,由不同的说话者说出。该数据集包含10个用于关键词检测的标签/命令,以及总共30个用于其他辅助任务的标签。
- 任务类别: a2t
- 领域: 口语
- 参考: https://huggingface.co/datasets/google/speech_commands
数据集结构与规模
数据集包含两种配置:
配置一:default
- 特征:
audio: 音频数据label: 标签(int64类型)
- 数据划分与规模:
- 训练集: 18,538 个样本,584,484,004.75 字节
- 验证集: 2,577 个样本,81,329,884.875 字节
- 测试集: 2,567 个样本,82,287,752.125 字节
- 下载大小: 682,401,908 字节
- 数据集总大小: 748,101,641.75 字节
配置二:labels
- 特征:
labels: 标签(string类型)
- 数据划分与规模:
- 训练集: 10 个样本,71 字节
- 下载大小: 832 字节
- 数据集总大小: 71 字节
评估方法
可以使用MTEB库对嵌入模型在该数据集上进行评估。
引用信息
如果使用此数据集,请引用原始Speech Commands数据集、MMTEB论文以及MTEB基准测试论文。
搜集汇总
数据集介绍

构建方式
在语音识别领域,构建高质量的数据集对于模型训练至关重要。SpeechCommandsZeroshotv0.01数据集源于Google Speech Commands,通过人工标注的方式,精心筛选出一秒时长的英语单词音频片段。这些片段涵盖了诸如“yes”、“no”、“stop”等核心指令词汇,同时包含背景噪声样本,以模拟真实环境下的语音交互场景。数据经过标准化处理,划分为训练集、验证集和测试集,确保了评估过程的严谨性与可重复性。
特点
该数据集在语音分类任务中展现出鲜明的特色,其音频样本均被裁剪为一秒长度,统一了输入格式,便于模型处理。数据集中包含10个关键标签用于关键词检测,另有30个辅助标签支持更广泛的任务探索,这种设计增强了数据集的适用性。所有样本均来自多样化的说话者,有效提升了模型的泛化能力,同时背景噪声的引入进一步模拟了实际应用中的复杂声学环境。
使用方法
在嵌入模型评估领域,该数据集作为MTEB基准的一部分,为研究者提供了标准化的测试平台。用户可通过导入mteb库,调用SpeechCommandsZeroshotv0.01任务,结合自定义的嵌入模型进行性能评估。评估过程自动涵盖训练、验证与测试阶段,输出全面的指标结果,助力模型在语音到文本转换任务中的优化与比较。
背景与挑战
背景概述
SpeechCommandsZeroshotv0.01数据集源自谷歌于2018年发布的Speech Commands数据集,由Pete Warden等研究人员构建,旨在推动有限词汇语音识别领域的发展。该数据集作为大规模文本嵌入基准(MTEB)的一部分,专注于声音分类与关键词检测任务,包含一系列时长为一秒的英语单词音频片段,涵盖如'yes'、'no'等命令词汇。其核心研究问题在于探索零样本学习场景下,模型如何泛化至未见过的语音命令,从而为智能语音助手与嵌入式设备中的语音交互技术提供关键数据支持,对语音处理与机器学习交叉领域产生了深远影响。
当前挑战
该数据集所解决的领域问题在于有限词汇语音识别中的零样本泛化挑战,要求模型在仅接触部分命令词汇训练后,能够准确识别未曾出现的语音指令,这涉及对声学特征与语义嵌入的深度理解。构建过程中的挑战包括音频数据的采集与标注,需确保不同说话者的发音多样性、背景噪声的干扰控制,以及从原始Speech Commands数据集中提取并重构适用于零样本评估的子集,同时保持数据平衡与质量一致性,以支撑可靠的基准测试。
常用场景
经典使用场景
在语音识别与音频信号处理领域,SpeechCommandsZeroshotv0.01数据集作为一项经典基准,主要用于评估嵌入模型在零样本关键词识别任务上的性能。该数据集包含一系列时长为一秒的英语单词音频片段,涵盖如“yes”、“no”、“stop”等十个核心命令词,由多位说话者录制而成,并辅以背景噪声样本。研究者通常借助大规模文本嵌入基准框架,通过该数据集测试模型在未见过的语音命令类别上的泛化能力,从而推动语音理解技术向更灵活、更适应现实场景的方向发展。
解决学术问题
该数据集有效应对了有限词汇语音识别中零样本学习的核心挑战,即模型如何在不依赖特定类别训练数据的情况下,准确识别未曾接触过的语音命令。它为解决语音嵌入表示的质量评估问题提供了标准化测试平台,使得学术界能够系统比较不同嵌入方法在跨类别泛化、噪声鲁棒性以及说话者无关识别等方面的表现。这一基准的建立,显著促进了语音表示学习领域从封闭集合识别向开放世界理解的范式转变,为后续研究奠定了坚实的实验基础。
衍生相关工作
围绕该数据集,学术界衍生出一系列经典研究工作,主要集中在改进音频嵌入模型与零样本学习框架上。例如,基于对比学习的语音表示方法被广泛用于提取更具判别性的音频特征;同时,结合文本描述或语义原型的跨模态对齐策略,也被探索用于增强模型对未知命令词的推理能力。这些工作不仅深化了我们对语音语义表示的理解,也为构建更通用的音频理解系统提供了关键的技术路径,持续影响着语音处理与多模态学习的研究方向。
以上内容由遇见数据集搜集并总结生成



