Coucke et al., 2018, Efficient keyword spotting using dilated convolutions and gating 和 Leroy et al., 2018, Federated learning for keyword spotting

github2020-09-08 更新2024-05-31 收录

下载链接：

https://github.com/lwhZJU/keyword-spotting-research-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这两个数据集用于关键字检测研究，包含多种英语口音和录音环境。第一个数据集通过自动和手动清理确保数据质量，包含约11K正面样本和86.5K负面样本。第二个数据集模拟真实世界的不平衡和高度分布设置，用于训练、开发和测试。

These two datasets are utilized for keyword detection research, encompassing a variety of English accents and recording environments. The first dataset ensures data quality through both automated and manual cleaning processes, containing approximately 11K positive samples and 86.5K negative samples. The second dataset simulates real-world imbalances and highly distributed settings, designed for training, development, and testing purposes.

创建时间：

2018-12-02

原始信息汇总

数据集概述

数据集1: Coucke et al., 2018, "Efficient keyword spotting using dilated convolutions and gating"

正样本：经过自动清理，移除了极端时长和重复的唤醒词样本。手动清理了dev和test集中的误发音唤醒词。
样本数量：包含约11K唤醒词语音和86.5K负样本。
数据集分割：
- 训练集：5,876个唤醒词语音，来自1,179位说话者，每位说话者最多10个语音。45,344个负样本，来自3,330位说话者，每位说话者最多30个语音。
- 开发集：2,504个唤醒词语音，来自516位说话者，每位说话者最多10个语音。20,321个负样本，来自1,474位说话者，每位说话者最多30个语音。
- 测试集：25,88个唤醒词语音，来自520位说话者，每位说话者最多10个语音。20,821个负样本，来自1,469位说话者，每位说话者最多30个语音。

数据集2: Leroy et al., 2018, "Federated learning for keyword spotting"

数据分布：模拟真实世界的非独立同分布、不平衡和高度分布的设置。
数据集分割：
- 训练集：53,991个语音，来自1,374位说话者。
- 开发集：8,337个语音，来自200位说话者。
- 测试集：7,854个语音，来自200位说话者。
- 总计：69,582个语音，来自1,774位说话者。

数据集访问

访问方式：通过电子邮件申请，需指明所需数据集版本（1或2）。
数据集文件：包含train.json、dev.json、test.json和audio_files目录，其中包含多个.wav音频文件。
数据集条目属性：包括id、is_hotword、worker_id、duration和audio_file_path。

许可证摘要

使用限制：仅供学术和/或研究目的使用，禁止商业使用。
出版要求：任何出版物必须包含对原始论文的完整引用，并遵守相同的许可条款。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于两个主要研究：Coucke等人（2018）和Leroy等人（2018）。数据集的核心围绕关键词“Hey Snips”进行构建，涵盖了多种英语口音和录音环境。正样本通过自动和手动清理，排除了极端时长和错误发音的样本，确保了数据的质量。负样本则在同一条件下录制，确保了数据的一致性。数据集分为训练集、开发集和测试集，每个集合的样本和说话者数量均经过精心设计，以支持模型的训练和评估。

特点

该数据集的特点在于其多样性和高质量。正样本和负样本均在同一环境下录制，确保了数据的同质性。数据集包含了大量的说话者和不同的口音，增强了模型的泛化能力。此外，数据集的构建特别注重隐私保护，符合GDPR的要求，允许数据贡献者随时退出，确保了数据的合法性和伦理性。数据集的结构清晰，分为训练、开发和测试集，便于研究者进行模型训练和评估。

使用方法

该数据集的使用方法相对简单。研究者需通过邮件申请访问权限，并提供所属机构和所需数据集的版本。数据集以压缩包形式提供，包含训练、开发和测试集的JSON文件以及对应的音频文件。每个JSON文件包含音频的唯一标识符、是否为关键词、贡献者ID、音频时长和音频文件路径等元数据。研究者可以根据这些元数据快速定位和处理音频文件，进行模型训练和评估。

背景与挑战

背景概述

由Snips团队于2018年发布的关键词识别研究数据集，旨在推动唤醒词检测领域的透明性和可重复性研究。该数据集包含两个版本，分别由Coucke等人和Leroy等人主导，分别应用于卷积神经网络和联邦学习的研究。数据集的核心研究问题在于如何高效识别特定唤醒词（如“Hey Snips”），并涵盖了多种英语口音和录音环境，以模拟真实场景。该数据集的发布填补了唤醒词检测领域公开数据集的空白，为相关研究提供了重要参考。

当前挑战

该数据集在构建和应用中面临多重挑战。首先，唤醒词检测任务本身具有较高的复杂性，尤其是在多口音、多环境背景下的语音识别中，模型需要具备较强的鲁棒性。其次，数据集的构建过程中，需确保正负样本的平衡性，并剔除极端时长或发音错误的样本，这对数据清洗提出了较高要求。此外，由于语音数据涉及个人隐私，数据集的开放受到GDPR等法规的限制，导致数据集的动态更新和长期维护面临挑战。最后，联邦学习版本的数据集模拟了非独立同分布的真实场景，这对模型的泛化能力提出了更高要求。

常用场景

经典使用场景

在语音识别领域，该数据集主要用于唤醒词检测（Keyword Spotting, KWS）的研究。通过提供大量包含不同英语口音和录音环境的“Hey Snips”唤醒词样本，研究人员能够训练和评估模型在复杂背景下的唤醒词识别能力。数据集中的正负样本均来自相同的录音条件，确保了模型在真实场景中的泛化性能。

解决学术问题

该数据集解决了唤醒词检测领域中的关键问题，如模型在非独立同分布（non-i.i.d）数据上的表现、多口音环境下的识别准确性以及低资源设备上的高效推理。通过提供多样化的语音样本和严格的训练、开发、测试划分，数据集为研究人员提供了可靠的基准，推动了唤醒词检测算法的透明性和可重复性研究。

衍生相关工作

该数据集催生了一系列经典研究工作，包括基于扩张卷积和门控机制的唤醒词检测模型（Coucke et al., 2018）以及联邦学习在唤醒词检测中的应用（Leroy et al., 2018）。这些研究不仅提升了唤醒词检测的效率和准确性，还为分布式学习技术在语音领域的应用提供了重要参考。此外，数据集的开源特性也促进了更多相关研究的涌现，推动了语音识别技术的进一步发展。

以上内容由遇见数据集搜集并总结生成