Coucke et al., 2019, Efficient keyword spotting using dilated convolutions and gating 和 Leroy et al., 2019, Federated learning for keyword spotting

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/sonos/keyword-spotting-research-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这两个数据集用于关键字检测研究，包含多种英语口音和录音环境。数据集1通过自动和手动清理确保数据质量，包含约11K唤醒词语音和86.5K负面例子。数据集2模拟真实世界的不独立同分布、不平衡和高度分布的设置，通过众包方式收集数据。

These two datasets are utilized for keyword detection research, encompassing a variety of English accents and recording environments. Dataset 1 ensures data quality through both automated and manual cleaning processes, containing approximately 11K wake word utterances and 86.5K negative examples. Dataset 2 simulates real-world scenarios of non-independent and identically distributed (non-i.i.d.), imbalanced, and highly distributed settings, with data collected via crowdsourcing.

创建时间：

2018-10-17

原始信息汇总

数据集概述

数据集描述

关键词： "Hey Snips"
语言： 英语
特点： 包含多种英语口音和录音环境，负样本与唤醒词样本在相同条件下录制。

数据集详情

数据集1: Coucke et al., 2019

数据清理： 自动移除极端时长样本和重复唤醒词样本，手动清理开发和测试集中的误发音。
数据量： 约11,000个唤醒词样本和86,500个负样本。
数据分布：
- 训练集： 正样本5,876个，负样本45,344个；1,179名说话者，每位最多10个样本。
- 开发集： 正样本2,504个，负样本20,321个；516名说话者，每位最多10个样本。
- 测试集： 正样本25,88个，负样本20,821个；520名说话者，每位最多10个样本。

数据集2: Leroy et al., 2019

数据分布： 模拟真实世界非独立同分布、不平衡和高度分布的设置。
数据量： 总计69,582个样本，包括训练集53,991个，开发集8,337个，测试集7,854个；共1,774名说话者。

数据格式

文件结构：
- train.json, dev.json, test.json：包含各部分音频列表及元数据。
- audio_files/：包含所有音频文件。
元数据字段：
- id：唯一标识符。
- is_hotword：是否为唤醒词（1为是，0为否）。
- worker_id：贡献者唯一标识符。
- duration：音频时长（秒）。
- audio_file_path：音频文件相对路径。

许可信息

使用限制： 仅限学术和研究用途，禁止商业使用。
引用要求： 任何出版物必须引用原始论文。
访问方式： 需通过指定表单申请访问权限。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式体现了对语音识别领域中关键词检测任务的深入考量。数据集包含两个版本，分别对应Coucke等人（2019）和Leroy等人（2019）的研究。Coucke等人的数据集通过自动筛选和手动清理的方式，剔除了极端时长和重复关键词的样本，确保了正样本的质量。而Leroy等人的数据集则通过众包方式收集，模拟了非独立同分布、不平衡且高度分布的真实场景，旨在为联邦学习在关键词检测中的应用提供数据支持。

特点

该数据集的显著特点在于其多样性和真实性。数据集涵盖了多种英语口音和录音环境，确保了模型的泛化能力。此外，负样本与正样本在录音条件上保持一致，从而避免了域外数据的干扰。Leroy等人的数据集通过众包方式构建，进一步增强了数据的真实性和分布的广泛性，为研究非独立同分布环境下的关键词检测提供了宝贵的资源。

使用方法

该数据集的使用方法相对直观。用户需通过提供的表单申请访问权限，获取数据集后，可以通过解析`train.json`、`dev.json`和`test.json`文件来获取音频文件的路径及其相关元数据。每个音频文件的元数据包括唯一标识符、是否为关键词、贡献者ID、时长以及音频文件路径。用户可以根据这些信息进行模型训练、验证和测试，特别适用于关键词检测和语音识别领域的研究。

背景与挑战

背景概述

关键词检测是语音识别领域中的一个重要分支，旨在从连续语音流中识别特定的唤醒词。Coucke等人于2019年提出了使用膨胀卷积和门控机制的高效关键词检测方法，并在ICASSP 2019上发表了相关研究。该数据集由Snips团队创建，旨在为唤醒词检测提供一个开放的研究基准，涵盖了多种英语口音和录音环境。数据集的开放性不仅促进了透明度和可重复性，还填补了唤醒词检测领域公开数据集的空白。

当前挑战

该数据集在构建过程中面临多项挑战。首先，唤醒词检测需要处理多样化的口音和环境，确保模型在不同条件下具有鲁棒性。其次，数据集的隐私问题尤为突出，由于语音数据涉及个人隐私，必须遵守GDPR等隐私保护法规，允许贡献者选择退出数据集。此外，数据集的非独立同分布特性增加了模型训练的复杂性，要求研究者设计适应性更强的算法以应对实际应用中的不均衡和分布不均问题。

常用场景

经典使用场景

该数据集在语音识别领域中，主要用于关键词检测任务，特别是针对唤醒词“Hey Snips”的识别。通过提供多样化的英语口音和录音环境，该数据集能够有效训练和评估模型在不同语音条件下的关键词检测能力。其经典使用场景包括语音助手唤醒词检测、语音命令分类等，旨在提升语音识别系统在实际应用中的鲁棒性和准确性。

实际应用

在实际应用中，该数据集可用于开发和优化语音助手、智能家居设备等产品的唤醒词检测功能。通过训练模型识别“Hey Snips”等唤醒词，系统能够在嘈杂环境或不同口音下准确响应用户指令，提升用户体验。此外，该数据集还可用于语音识别系统的性能评估和算法优化，确保其在实际应用中的高效性和可靠性。

衍生相关工作

基于该数据集，研究者们开发了多种关键词检测算法，如使用膨胀卷积和门控机制的高效关键词检测模型，以及结合联邦学习的分布式关键词检测方法。这些工作不仅提升了关键词检测的准确性和效率，还推动了语音识别技术在隐私保护和分布式计算方面的应用。相关研究成果已在多个学术会议上发表，进一步促进了语音识别领域的技术进步。

以上内容由遇见数据集搜集并总结生成