kahrendt/microwakeword

Name: kahrendt/microwakeword
Creator: kahrendt
Published: 2024-06-08 20:16:12
License: 暂无描述

Hugging Face2024-06-08 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/kahrendt/microwakeword

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于microWakeWord训练的频谱图特征，特征使用TensorFlow的microfrontend生成。数据集包含三个主要文件：`dinner_party_background`、`no_speech_background`和`speech_background`，分别用于训练、验证和测试不同背景下的语音识别。特征数据未缩放或转换为浮点数，需手动进行转换。

提供机构：

kahrendt

原始信息汇总

数据集概述

该数据集包含用于微唤醒词训练的频谱图特征，采用mmap ninja格式。特征生成使用TensorFlow的microfrontend，配置如下：

采样率：16000 Hz
窗口大小：30 ms
窗口步长：20 ms
通道数：40
上限频率：7500 Hz
下限频率：125 Hz
启用PCAN：True
最小信号保留：0.05
输出缩放：1
输出类型：tf.uint16

这些特征未进行缩放或转换为浮点数。如需转换，请在转换为浮点数后乘以0.0390625。当前版本的microWakeWord（截至2024年6月8日）未自动执行此操作，但将实现。

数据集包含以下文件：

dinner_party_background：包含CHiME6训练集的特征，用于训练；CHiME6开发集和评估集的特征，用于验证环境背景；以及所有DipCo音频的特征，用于测试环境背景。
no_speech_background：包含FMA-medium、FSD50K和WHAM数据集的特征，用于训练。所有小于6秒的音频片段重复至至少6秒，所有频谱图分割为5秒非重叠区间，前25个特征被丢弃。
speech_background：包含LibriSpeech训练集（其他）和VOiCES数据集的特征，用于训练。所有小于6秒的音频片段重复至至少6秒，所有频谱图分割为5秒非重叠区间，前25个特征被丢弃。

许可证

该数据集遵循cc-by-nc-4.0许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集