soerenray/speech_commands_enriched_and_annotated

Name: soerenray/speech_commands_enriched_and_annotated
Creator: soerenray
Published: 2023-07-31 13:25:33
License: 暂无描述

Hugging Face2023-07-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/soerenray/speech_commands_enriched_and_annotated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个增强版的语音命令数据集，包含了60,973个样本，分为30个类别（外加一个静音类别）。数据集旨在评估关键词识别模型，并通过添加音频嵌入、预测标签、注释和嵌入等信息进行了增强。数据集的结构包括音频、标签、是否为未知、说话者ID、话语ID、逻辑值、概率、预测标签、注释标签、嵌入和降维嵌入等特征。数据集支持的任务包括TensorFlow语音识别挑战，语言为英语。

提供机构：

soerenray

原始信息汇总

数据集概述

数据集信息

许可证: openrail
数据集大小: 1774663023.432 字节
下载大小: 1701177850 字节
训练集大小: 1774663023.432 字节，包含 51093 个样本

数据集特征

特征名称	数据类型
audio	audio
label	int64
is_unknown	bool
speaker_id	string
utterance_id	int8
logits	sequence (float32)
Probability	float64
Predicted Label	string
Annotated Labels	string
embedding	sequence (float32)
embedding_reduced	sequence (float64)

数据集结构

数据实例: 包含音频文件路径、音频数组、采样率、标签、是否未知、说话人ID、话语ID、逻辑值、概率、预测标签、注释标签、嵌入和简化嵌入。
数据字段: 详细描述了每个特征的数据类型和结构。

数据集内容

语音命令数据集: 包含60,973个样本，分为30个类（加上一个沉默类），用于评估关键词检测模型。
数据集增强: 增加了由MIT的AST模型生成的音频嵌入。

数据集使用

探索工具: 使用Renumics Spotlight工具可以快速探索数据集，通过几行代码即可加载和分析数据。
支持的任务: 包括TensorFlow语音识别挑战，目标是构建语音检测器。

语言

类标签语言: 英语

引用信息

引用文献: 使用此数据集时，请引用以下论文：

@article{speechcommandsv2, author = { {Warden}, P.}, title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}", journal = {ArXiv e-prints}, archivePrefix = "arXiv", eprint = {1804.03209}, primaryClass = "cs.CL", keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction}, year = 2018, month = apr, url = {https://arxiv.org/abs/1804.03209}, }

贡献者

Pete Warden 和 Soeren Raymond (Renumics GmbH)

5,000+

优质数据集

54 个

任务类型

进入经典数据集