Coucke et al., 2019, Efficient keyword spotting using dilated convolutions and gating 和 Leroy et al., 2019, Federated learning for keyword spotting

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/snipsco/keyword-spotting-research-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这两个数据集用于关键字检测研究，包含多种英语口音和录音环境。数据集1包含约11K唤醒词语音和86.5K负面样本，数据集2模拟真实世界非独立同分布、不平衡且高度分布的设置，包含69,582条语音记录。

These two datasets are utilized for keyword detection research, encompassing a variety of English accents and recording environments. Dataset 1 comprises approximately 11K wake word utterances and 86.5K negative samples. Dataset 2 simulates a real-world scenario with non-independent and identically distributed (non-IID), imbalanced, and highly distributed settings, containing 69,582 speech recordings.

创建时间：

2018-10-17

原始信息汇总

数据集概述

数据集1: Coucke et al., 2019, "Efficient keyword spotting using dilated convolutions and gating"

数据描述: 包含约11K的唤醒词（"Hey Snips"）语音和86.5K的负面样本。
数据清理: 自动移除极端时长样本，手动清理开发和测试集中的错误发音。
数据统计:
- 训练集: 5,876个正面语音，1,179个说话者，每个说话者最多10个语音；45,344个负面语音，3,330个说话者，每个说话者最多30个语音。
- 开发集: 2,504个正面语音，516个说话者；20,321个负面语音，1,474个说话者。
- 测试集: 25,88个正面语音，520个说话者；20,821个负面语音，1,469个说话者。

数据集2: Leroy et al., 2019, "Federated learning for keyword spotting"

数据描述: 模拟真实世界非独立同分布、不平衡且高度分布的设置。
数据统计:
- 训练集: 53,991个语音，1,374个说话者。
- 开发集: 8,337个语音，200个说话者。
- 测试集: 7,854个语音，200个说话者。
- 总计: 69,582个语音，1,774个说话者。

数据格式

文件结构: 包含train.json, dev.json, test.json和audio_files目录。
元数据: 每个音频文件包含id, is_hotword, worker_id, duration, audio_file_path等属性。

许可信息

使用限制: 仅限于学术和/或研究目的，禁止商业使用。
引用要求: 任何使用此数据集的出版物必须引用原始论文。

数据集访问

访问方式: 通过填写在线表格请求访问权限。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对关键词‘Hey Snips’的语音识别任务，涵盖了多种英语口音和录音环境。正样本数据经过自动清理，去除了极端时长和重复出现的样本，而开发集和测试集则进一步手动清理以排除误读情况。负样本与正样本在录音条件上保持一致，确保数据集的领域一致性。数据集通过众包方式收集，模拟了非独立同分布、不平衡且高度分散的真实世界场景，训练、开发和测试集分别使用了不同的用户群体，以确保数据的多样性和代表性。

特点

该数据集的显著特点在于其多样化的语音环境和口音，以及对正负样本的精细处理，确保了数据的高质量和领域一致性。此外，数据集的构建方式模拟了真实世界的非独立同分布场景，为关键词检测任务提供了更具挑战性和实用性的数据。数据集的结构化存储方式，包括音频文件和元数据的详细记录，使得数据易于访问和处理。

使用方法

数据集的使用方法相对直观，用户可以通过提供的JSON文件访问训练、开发和测试集的音频列表及其元数据。每个音频文件都附有唯一标识符、是否为关键词的标签、贡献者ID、时长和音频文件路径等信息。用户可以根据这些元数据进行数据筛选和处理，结合音频文件进行模型训练和评估。数据集的使用仅限于学术和研究目的，且需遵守相关许可协议，确保数据的合法使用和引用。

背景与挑战

背景概述

关键词检测领域的研究长期以来依赖于高质量的数据集，以推动语音识别技术的进步。Coucke等人于2019年提出的‘Efficient keyword spotting using dilated convolutions and gating’以及Leroy等人同年提出的‘Federated learning for keyword spotting’研究，均基于‘Hey Snips’唤醒词检测任务，旨在解决语音助手领域中的关键词检测问题。这些数据集由Snips团队创建，后由Sonos接管，包含了多种英语口音和录音环境，涵盖了约11,000个正样本和86,500个负样本。该数据集的发布填补了唤醒词检测领域公开数据集的空白，促进了该领域的透明度和可重复性研究。

当前挑战

该数据集在构建过程中面临多项挑战。首先，唤醒词‘Hey Snips’的检测需要在多样化的口音和环境中保持高准确性，这对模型的泛化能力提出了高要求。其次，数据集的负样本与正样本在录音条件上保持一致，增加了区分难度。此外，由于语音数据涉及个人隐私，数据集的构建需严格遵守GDPR等隐私保护法规，确保数据贡献者有权选择退出，这增加了数据集管理的复杂性。最后，数据集的分布式特性，特别是Leroy等人提出的联邦学习场景，模拟了非独立同分布和不平衡的真实世界环境，为模型训练带来了额外的挑战。

常用场景

经典使用场景

该数据集在关键词检测领域中具有经典的使用场景，特别是在唤醒词检测任务中。通过提供大量包含不同英语口音和录音环境的正负样本，该数据集为研究人员提供了一个丰富的资源，用于训练和评估关键词检测模型。其设计旨在模拟真实世界的多样化语音输入，从而提高模型的泛化能力和鲁棒性。

解决学术问题

该数据集解决了关键词检测领域中常见的学术研究问题，特别是在唤醒词检测的准确性和鲁棒性方面。通过提供多样化的语音样本和环境条件，该数据集有助于研究人员开发更加精确和适应性强的关键词检测算法。此外，该数据集的开放性促进了该领域的透明度和可重复性研究，为学术界提供了宝贵的资源。

衍生相关工作

该数据集的发布激发了许多相关研究工作，特别是在关键词检测和联邦学习领域。例如，基于该数据集的研究工作探索了使用扩张卷积和门控机制的高效关键词检测方法，以及在分布式环境中进行关键词检测的联邦学习策略。这些研究不仅推动了关键词检测技术的发展，还为语音识别和自然语言处理领域的其他应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成