five

kahrendt/microwakeword

收藏
Hugging Face2024-06-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/kahrendt/microwakeword
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于microWakeWord训练的频谱图特征,特征使用TensorFlow的microfrontend生成。数据集包含三个主要文件:`dinner_party_background`、`no_speech_background`和`speech_background`,分别用于训练、验证和测试不同背景下的语音识别。特征数据未缩放或转换为浮点数,需手动进行转换。

该数据集包含用于microWakeWord训练的频谱图特征,特征使用TensorFlow的microfrontend生成。数据集包含三个主要文件:`dinner_party_background`、`no_speech_background`和`speech_background`,分别用于训练、验证和测试不同背景下的语音识别。特征数据未缩放或转换为浮点数,需手动进行转换。
提供机构:
kahrendt
原始信息汇总

数据集概述

该数据集包含用于微唤醒词训练的频谱图特征,采用mmap ninja格式。特征生成使用TensorFlow的microfrontend,配置如下:

  • 采样率:16000 Hz
  • 窗口大小:30 ms
  • 窗口步长:20 ms
  • 通道数:40
  • 上限频率:7500 Hz
  • 下限频率:125 Hz
  • 启用PCAN:True
  • 最小信号保留:0.05
  • 输出缩放:1
  • 输出类型:tf.uint16

这些特征未进行缩放或转换为浮点数。如需转换,请在转换为浮点数后乘以0.0390625。当前版本的microWakeWord(截至2024年6月8日)未自动执行此操作,但将实现。

数据集包含以下文件:

  • dinner_party_background:包含CHiME6训练集的特征,用于训练;CHiME6开发集和评估集的特征,用于验证环境背景;以及所有DipCo音频的特征,用于测试环境背景。
  • no_speech_background:包含FMA-medium、FSD50K和WHAM数据集的特征,用于训练。所有小于6秒的音频片段重复至至少6秒,所有频谱图分割为5秒非重叠区间,前25个特征被丢弃。
  • speech_background:包含LibriSpeech训练集(其他)和VOiCES数据集的特征,用于训练。所有小于6秒的音频片段重复至至少6秒,所有频谱图分割为5秒非重叠区间,前25个特征被丢弃。

许可证

该数据集遵循cc-by-nc-4.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作