SpeechCommandsZeroshotv0.02

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/mteb/SpeechCommandsZeroshotv0.02

下载链接

链接失效反馈

官方服务：

资源简介：

声音分类/关键词识别数据集。这是一组包含单个英语单词或背景噪音的一秒音频片段。这些单词来自一小部分命令词，如'是'、'否'和'停止'等，由不同的说话者录制。总共有10个标签/命令用于关键词识别，以及30个标签用于其他辅助任务。

创建时间：

2026-01-17

原始信息汇总

SpeechCommandsZeroshotv0.02 数据集概述

基本信息

数据集名称: SpeechCommandsZeroshotv0.02
来源数据集: google/speech_commands
任务类别: a2t
领域: Spoken
语言: 英语 (eng)
多语言性: 单语
许可协议: cc-by-4.0
标注创建者: 人工标注
标签: mteb, audio, text

数据集描述

这是一个声音分类/关键词识别数据集。包含一系列时长为一秒的音频片段，每个片段包含一个单独的英语口语单词或背景噪音。这些单词来自一小部分命令，例如“yes”、“no”和“stop”，由不同的说话者说出。该数据集包含10个用于关键词识别的标签/命令，以及总共30个用于其他辅助任务的标签。

数据集结构与规模

数据集包含两种配置（config）：

1. 默认配置 (default)

特征:

audio: 音频数据
label: 整数标签 (int64)

数据划分:

训练集 (train): 30,769 个样本，大小约 968.36 MB
验证集 (validation): 3,703 个样本，大小约 116.49 MB
测试集 (test): 4,074 个样本，大小约 130.60 MB

总体规模:

下载大小: 1,106,457,648 字节
数据集大小: 1,215,450,904.75 字节

2. 标签配置 (labels)

特征:

labels: 字符串标签

数据划分:

训练集 (train): 10 个样本，大小 71 字节

总体规模:

下载大小: 775 字节
数据集大小: 71 字节

数据集统计信息（测试集）

总样本数: 4,074
音频总时长: 4,074 秒
音频时长范围: 所有音频均为 1.0 秒
唯一音频数: 3,953
平均采样率: 16,000 Hz
标签数量: 10 个唯一标签
每个样本标签数: 1 个
候选标签文本统计:
- 总文本长度: 31 字符
- 最小文本长度: 2 字符
- 平均文本长度: 3.1 字符
- 最大文本长度: 5 字符
- 唯一文本数: 10

评估方法

可使用 MTEB (Massive Text Embedding Benchmark) 框架对该数据集上的嵌入模型进行评估。

引用信息

如需使用本数据集，请引用原始 Speech Commands 数据集以及 MTEB 和 MMTEB 相关论文。

搜集汇总

数据集介绍

构建方式

在语音识别领域，构建高质量的数据集对于模型训练至关重要。SpeechCommandsZeroshotv0.02数据集源自Google Speech Commands，经过人工标注处理，专注于有限词汇的语音命令识别。该数据集包含30769个训练样本、3703个验证样本和4074个测试样本，每个样本均为时长一秒的音频片段，采样率统一为16000赫兹。数据集的构建过程严格遵循标准化流程，确保了音频质量与标签准确性，为后续的零样本学习任务奠定了坚实基础。

使用方法

在模型评估实践中，该数据集通过MTEB框架实现了便捷的集成与应用。研究人员可使用Python代码调用mteb库，快速加载任务并运行嵌入模型进行评估。数据集支持训练、验证和测试的标准划分，便于进行模型性能的全面检验。用户需遵循CC-BY-4.0许可协议，并在引用时注明原始数据集及MTEB基准，以确保学术规范的完整性。这种设计使得该数据集成为语音嵌入模型评测中的重要工具，推动了语音处理技术的标准化发展。

背景与挑战

背景概述

SpeechCommandsZeroshotv0.02数据集源于谷歌研究院于2018年发布的Speech Commands数据集，由Pete Warden等人构建，旨在推动有限词汇语音识别技术的研究。该数据集作为大规模文本嵌入基准（MTEB）的一部分，专注于零样本音频到文本的嵌入任务，核心研究问题在于探索如何通过预训练模型实现未见过的语音命令的准确分类与理解。其构建基于原始语音命令数据，通过精心设计的处理流程，为语音处理领域提供了标准化的评估框架，显著促进了跨模态表示学习的发展，并在智能助手、无障碍交互等实际应用中展现出重要影响力。

当前挑战

该数据集旨在解决音频领域中的关键词识别与零样本学习问题，其核心挑战在于模型需在未针对特定命令进行显式训练的情况下，仅依靠嵌入表示泛化至新的语音类别。构建过程中的挑战涉及数据标注的精确性与一致性，原始音频片段需经人工校验以确保语音清晰度与背景噪声的平衡；同时，数据集的零样本划分要求严格的类别分离，避免信息泄露，这对数据预处理与分割策略提出了较高要求。此外，跨模态对齐的复杂性，即音频信号与文本标签之间的语义映射，亦是实现稳健性能的关键难点。

常用场景

经典使用场景

在语音识别与音频理解领域，SpeechCommandsZeroshotv0.02数据集为研究者提供了一个标准化的评估平台，专门用于测试嵌入模型在零样本关键词识别任务中的性能。该数据集包含一系列时长为一秒的英语单词音频片段，涵盖了诸如“是”、“否”、“停止”等常见指令词汇，由多位说话者录制而成。通过将音频信号转化为文本嵌入表示，模型能够在未见过的指令类别上进行泛化能力评估，从而推动语音指令分类技术的发展。

解决学术问题

该数据集主要解决了有限词汇语音识别中的零样本学习挑战，为学术界提供了衡量模型跨类别泛化能力的基准。传统语音识别系统往往依赖于大量标注数据，而该数据集通过构建包含10个核心标签的测试集，促使研究者探索如何利用嵌入表示实现对新指令的准确识别。其意义在于推动了少样本与零样本学习在音频领域的应用，降低了模型对标注数据的依赖，为智能语音交互系统的轻量化部署奠定了理论基础。

实际应用

在实际应用层面，SpeechCommandsZeroshotv0.02数据集可广泛应用于智能家居控制、车载语音助手以及无障碍交互设备等场景。通过训练模型识别有限的核心指令，系统能够以低功耗方式响应用户的语音命令，提升人机交互的自然性与效率。例如，在嵌入式设备中，基于该数据集优化的模型可实现实时关键词检测，为物联网设备提供可靠的语音触发功能，从而增强用户体验并拓展语音技术的应用边界。

数据集最近研究