moonseok/whisper_speechcommandsV2_data
收藏Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/moonseok/whisper_speechcommandsV2_data
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: file
dtype: string
- name: label
dtype:
class_label:
names:
'0': 'yes'
'1': 'no'
'2': up
'3': down
'4': left
'5': right
'6': 'on'
'7': 'off'
'8': stop
'9': go
'10': zero
'11': one
'12': two
'13': three
'14': four
'15': five
'16': six
'17': seven
'18': eight
'19': nine
'20': bed
'21': bird
'22': cat
'23': dog
'24': happy
'25': house
'26': marvin
'27': sheila
'28': tree
'29': wow
'30': backward
'31': forward
'32': follow
'33': learn
'34': visual
'35': _silence_
- name: input_features
sequence:
sequence: float32
splits:
- name: train
num_bytes: 81484786167
num_examples: 84848
- name: validation
num_bytes: 9586332258
num_examples: 9982
- name: test
num_bytes: 4696163330
num_examples: 4890
download_size: 2260418103
dataset_size: 95767281755
---
# Dataset Card for "whisper_speechcommandsV2_data"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
配置项:
- 配置名称:default(默认配置)
数据文件:
- 划分集:train(训练集),路径:data/train-*
- 划分集:validation(验证集),路径:data/validation-*
- 划分集:test(测试集),路径:data/test-*
数据集信息:
特征:
- 名称:file,数据类型:string(字符串)
- 名称:label,数据类型:
类别标签(class_label):
类别映射:
'0': '是'
'1': '否'
'2': 向上
'3': 向下
'4': 向左
'5': 向右
'6': '开启'
'7': '关闭'
'8': 停止
'9': 前进
'10': 零
'11': 一
'12': 二
'13': 三
'14': 四
'15': 五
'16': 六
'17': 七
'18': 八
'19': 九
'20': 床
'21': 鸟
'22': 猫
'23': 狗
'24': 开心
'25': 房屋
'26': 马文(Marvin)
'27': 希拉(Sheila)
'28': 树
'29': 哇
'30': 后退
'31': 向前
'32': 跟随
'33': 学习
'34': 视觉
'35': 静音
- 名称:输入特征(input_features),数据类型:
序列(sequence):
子序列元素类型:float32(32位浮点型)
划分集:
- 名称:train(训练集),总字节数:81484786167,样本数量:84848
- 名称:validation(验证集),总字节数:9586332258,样本数量:9982
- 名称:test(测试集),总字节数:4696163330,样本数量:4890
下载大小:2260418103
数据集总大小:95767281755
---
# "whisper_speechcommandsV2_data" 数据集卡片
[更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
moonseok
原始信息汇总
数据集概述
配置信息
- 默认配置:
- 数据文件:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
- 数据文件:
数据集信息
- 特征:
- 文件:
- 名称:
file - 数据类型:
string
- 名称:
- 标签:
- 名称:
label - 数据类型:
class_label - 标签名称:
0:yes1:no2:up3:down4:left5:right6:on7:off8:stop9:go10:zero11:one12:two13:three14:four15:five16:six17:seven18:eight19:nine20:bed21:bird22:cat23:dog24:happy25:house26:marvin27:sheila28:tree29:wow30:backward31:forward32:follow33:learn34:visual35:_silence_
- 名称:
- 输入特征:
- 名称:
input_features - 数据类型:
sequence - 序列类型:
float32
- 名称:
- 文件:
数据集划分
- 训练集:
- 字节数:81484786167
- 样本数:84848
- 验证集:
- 字节数:9586332258
- 样本数:9982
- 测试集:
- 字节数:4696163330
- 样本数:4890
数据集大小
- 下载大小:2260418103 字节
- 数据集大小:95767281755 字节
搜集汇总
数据集介绍

构建方式
在语音识别技术蓬勃发展的背景下,moonseok/whisper_speechcommandsV2_data数据集应运而生,其构建过程体现了对现有语音指令资源的深度整合与优化。该数据集以经典的Speech Commands V2数据集为基础,通过Whisper模型进行预处理,将原始音频转换为结构化的声学特征序列。构建者精心划分了训练集、验证集和测试集,确保了数据在模型开发流程中分布的科学性与合理性,为后续的模型训练与评估奠定了坚实的数据基础。
特点
该数据集的核心特点在于其丰富的指令类别与精炼的数据结构。它涵盖了从基础指令如‘yes’、‘no’到方向指令、数字及特定名词等共计35个类别,并包含一个特殊的静音类别,这极大地扩展了模型对多样化语音命令的理解边界。数据集以高效的特征形式存储,每个样本包含文件路径、文本标签及预提取的声学特征向量,这种设计显著提升了数据加载与处理的效率,为大规模语音模型训练提供了便利。
使用方法
在语音命令识别模型的研发与应用中,本数据集提供了标准化的使用路径。研究者可直接加载已划分的训练、验证与测试分片,利用其预计算的输入特征进行模型训练,从而规避了原始音频实时特征提取的计算开销。该数据集适用于监督学习框架,通过输入特征与对应标签的映射关系,可用于训练和评估各类语音分类或端到端识别模型,推动轻量级与高效能语音交互系统的技术进步。
背景与挑战
背景概述
在语音识别技术迅猛发展的背景下,moonseok/whisper_speechcommandsV2_data数据集应运而生,它基于Google Speech Commands V2数据集构建,并整合了Whisper模型的输入特征。该数据集由研究社区成员moonseok于近年创建,旨在为语音命令识别任务提供高质量的预训练特征表示。其核心研究问题聚焦于如何利用先进的预训练模型提升有限词汇语音命令的分类性能,对推动轻量级语音交互系统的发展具有显著影响力,尤其在嵌入式设备和边缘计算场景中展现了重要价值。
当前挑战
该数据集致力于解决语音命令识别领域的核心挑战,即如何在复杂声学环境下实现高精度、低延迟的有限词汇分类。具体而言,挑战包括处理背景噪声、说话人变异性以及口语发音差异对模型鲁棒性的影响。在构建过程中,数据集整合了Whisper模型的中间特征,这要求精细的音频对齐与特征提取流程,同时需确保原始语音命令数据的标签一致性,并克服大规模特征存储与计算资源之间的平衡难题。
常用场景
经典使用场景
在语音识别领域,该数据集作为经典基准,广泛用于评估和训练关键词检测模型。其包含丰富的语音命令类别,如方向指令、数字及日常词汇,为模型提供了多样化的声学特征学习样本。研究人员常利用该数据集验证模型在嘈杂环境下的鲁棒性,以及跨说话者的泛化能力,从而推动语音识别技术向更精准、更实用的方向发展。
解决学术问题
该数据集有效解决了语音识别中关键词检测的标注稀缺问题,为学术研究提供了标准化的评估框架。它助力于探索低资源环境下的模型优化策略,如数据增强和迁移学习,并促进了端到端语音识别系统的开发。通过提供多类别命令和静音样本,该数据集推动了噪声抑制和语音活动检测等关键技术的研究,对提升智能语音交互的可靠性具有深远意义。
衍生相关工作
围绕该数据集,衍生出多项经典研究工作,包括基于卷积神经网络和循环神经网络的端到端语音识别模型。这些工作进一步推动了注意力机制和Transformer架构在语音任务中的应用,如Whisper模型的预训练与微调。相关研究还扩展至多模态学习,结合视觉信息增强命令理解,为语音识别领域的创新提供了持续动力。
以上内容由遇见数据集搜集并总结生成



