five

soerenray/speech_commands_enriched_and_annotated

收藏
Hugging Face2023-07-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/soerenray/speech_commands_enriched_and_annotated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个增强版的语音命令数据集,包含了60,973个样本,分为30个类别(外加一个静音类别)。数据集旨在评估关键词识别模型,并通过添加音频嵌入、预测标签、注释和嵌入等信息进行了增强。数据集的结构包括音频、标签、是否为未知、说话者ID、话语ID、逻辑值、概率、预测标签、注释标签、嵌入和降维嵌入等特征。数据集支持的任务包括TensorFlow语音识别挑战,语言为英语。

该数据集是一个增强版的语音命令数据集,包含了60,973个样本,分为30个类别(外加一个静音类别)。数据集旨在评估关键词识别模型,并通过添加音频嵌入、预测标签、注释和嵌入等信息进行了增强。数据集的结构包括音频、标签、是否为未知、说话者ID、话语ID、逻辑值、概率、预测标签、注释标签、嵌入和降维嵌入等特征。数据集支持的任务包括TensorFlow语音识别挑战,语言为英语。
提供机构:
soerenray
原始信息汇总

数据集概述

数据集信息

  • 许可证: openrail
  • 数据集大小: 1774663023.432 字节
  • 下载大小: 1701177850 字节
  • 训练集大小: 1774663023.432 字节,包含 51093 个样本

数据集特征

特征名称 数据类型
audio audio
label int64
is_unknown bool
speaker_id string
utterance_id int8
logits sequence (float32)
Probability float64
Predicted Label string
Annotated Labels string
embedding sequence (float32)
embedding_reduced sequence (float64)

数据集结构

  • 数据实例: 包含音频文件路径、音频数组、采样率、标签、是否未知、说话人ID、话语ID、逻辑值、概率、预测标签、注释标签、嵌入和简化嵌入。
  • 数据字段: 详细描述了每个特征的数据类型和结构。

数据集内容

  • 语音命令数据集: 包含60,973个样本,分为30个类(加上一个沉默类),用于评估关键词检测模型。
  • 数据集增强: 增加了由MIT的AST模型生成的音频嵌入。

数据集使用

  • 探索工具: 使用Renumics Spotlight工具可以快速探索数据集,通过几行代码即可加载和分析数据。
  • 支持的任务: 包括TensorFlow语音识别挑战,目标是构建语音检测器。

语言

  • 类标签语言: 英语

引用信息

  • 引用文献: 使用此数据集时,请引用以下论文:

    @article{speechcommandsv2, author = { {Warden}, P.}, title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}", journal = {ArXiv e-prints}, archivePrefix = "arXiv", eprint = {1804.03209}, primaryClass = "cs.CL", keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction}, year = 2018, month = apr, url = {https://arxiv.org/abs/1804.03209}, }

贡献者

  • Pete Warden 和 Soeren Raymond (Renumics GmbH)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作