kahrendt/microwakeword
收藏Hugging Face2024-06-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/kahrendt/microwakeword
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于microWakeWord训练的频谱图特征,特征使用TensorFlow的microfrontend生成。数据集包含三个主要文件:`dinner_party_background`、`no_speech_background`和`speech_background`,分别用于训练、验证和测试不同背景下的语音识别。特征数据未缩放或转换为浮点数,需手动进行转换。
该数据集包含用于microWakeWord训练的频谱图特征,特征使用TensorFlow的microfrontend生成。数据集包含三个主要文件:`dinner_party_background`、`no_speech_background`和`speech_background`,分别用于训练、验证和测试不同背景下的语音识别。特征数据未缩放或转换为浮点数,需手动进行转换。
提供机构:
kahrendt
原始信息汇总
数据集概述
该数据集包含用于微唤醒词训练的频谱图特征,采用mmap ninja格式。特征生成使用TensorFlow的microfrontend,配置如下:
- 采样率:16000 Hz
- 窗口大小:30 ms
- 窗口步长:20 ms
- 通道数:40
- 上限频率:7500 Hz
- 下限频率:125 Hz
- 启用PCAN:True
- 最小信号保留:0.05
- 输出缩放:1
- 输出类型:tf.uint16
这些特征未进行缩放或转换为浮点数。如需转换,请在转换为浮点数后乘以0.0390625。当前版本的microWakeWord(截至2024年6月8日)未自动执行此操作,但将实现。
数据集包含以下文件:
dinner_party_background:包含CHiME6训练集的特征,用于训练;CHiME6开发集和评估集的特征,用于验证环境背景;以及所有DipCo音频的特征,用于测试环境背景。no_speech_background:包含FMA-medium、FSD50K和WHAM数据集的特征,用于训练。所有小于6秒的音频片段重复至至少6秒,所有频谱图分割为5秒非重叠区间,前25个特征被丢弃。speech_background:包含LibriSpeech训练集(其他)和VOiCES数据集的特征,用于训练。所有小于6秒的音频片段重复至至少6秒,所有频谱图分割为5秒非重叠区间,前25个特征被丢弃。
许可证
该数据集遵循cc-by-nc-4.0许可证。



