soerenray/speech_commands_enriched_and_annotated
收藏Hugging Face2023-07-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/soerenray/speech_commands_enriched_and_annotated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个增强版的语音命令数据集,包含了60,973个样本,分为30个类别(外加一个静音类别)。数据集旨在评估关键词识别模型,并通过添加音频嵌入、预测标签、注释和嵌入等信息进行了增强。数据集的结构包括音频、标签、是否为未知、说话者ID、话语ID、逻辑值、概率、预测标签、注释标签、嵌入和降维嵌入等特征。数据集支持的任务包括TensorFlow语音识别挑战,语言为英语。
该数据集是一个增强版的语音命令数据集,包含了60,973个样本,分为30个类别(外加一个静音类别)。数据集旨在评估关键词识别模型,并通过添加音频嵌入、预测标签、注释和嵌入等信息进行了增强。数据集的结构包括音频、标签、是否为未知、说话者ID、话语ID、逻辑值、概率、预测标签、注释标签、嵌入和降维嵌入等特征。数据集支持的任务包括TensorFlow语音识别挑战,语言为英语。
提供机构:
soerenray
原始信息汇总
数据集概述
数据集信息
- 许可证: openrail
- 数据集大小: 1774663023.432 字节
- 下载大小: 1701177850 字节
- 训练集大小: 1774663023.432 字节,包含 51093 个样本
数据集特征
| 特征名称 | 数据类型 |
|---|---|
| audio | audio |
| label | int64 |
| is_unknown | bool |
| speaker_id | string |
| utterance_id | int8 |
| logits | sequence (float32) |
| Probability | float64 |
| Predicted Label | string |
| Annotated Labels | string |
| embedding | sequence (float32) |
| embedding_reduced | sequence (float64) |
数据集结构
- 数据实例: 包含音频文件路径、音频数组、采样率、标签、是否未知、说话人ID、话语ID、逻辑值、概率、预测标签、注释标签、嵌入和简化嵌入。
- 数据字段: 详细描述了每个特征的数据类型和结构。
数据集内容
- 语音命令数据集: 包含60,973个样本,分为30个类(加上一个沉默类),用于评估关键词检测模型。
- 数据集增强: 增加了由MIT的AST模型生成的音频嵌入。
数据集使用
- 探索工具: 使用Renumics Spotlight工具可以快速探索数据集,通过几行代码即可加载和分析数据。
- 支持的任务: 包括TensorFlow语音识别挑战,目标是构建语音检测器。
语言
- 类标签语言: 英语
引用信息
-
引用文献: 使用此数据集时,请引用以下论文:
@article{speechcommandsv2, author = { {Warden}, P.}, title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}", journal = {ArXiv e-prints}, archivePrefix = "arXiv", eprint = {1804.03209}, primaryClass = "cs.CL", keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction}, year = 2018, month = apr, url = {https://arxiv.org/abs/1804.03209}, }
贡献者
- Pete Warden 和 Soeren Raymond (Renumics GmbH)



