five

krandiash/sc09

收藏
Hugging Face2022-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/krandiash/sc09
下载链接
链接失效反馈
官方服务:
资源简介:
SC09数据集是一个原始音频波形数据集,最初用于关键词识别,后来被用于无条件的音频生成任务。该数据集包含从零到九的数字发音的1秒音频片段,涵盖了多种说话者、口音和噪声条件。数据集分为训练、验证和测试集,并提供了相应的文件列表。此外,还包含一个经过量化的版本,用于模拟自回归模型中的量化噪声。

The SC09 dataset is a raw audio waveform dataset originally intended for keyword recognition, and later repurposed for unconditional audio generation tasks. It contains 1-second audio clips of digit pronunciations from zero to nine, covering diverse speakers, accents and noise conditions. The dataset is split into training, validation and test sets, with corresponding file lists provided. In addition, a quantized version is included to simulate quantization noise in autoregressive models.
提供机构:
krandiash
原始信息汇总

SC09 Dataset 概述

数据集描述

SC09 数据集是一个原始音频波形数据集,用于论文 "Its Raw! Audio Generation with State-Space Models"。该数据集包含从零到九的数字发音片段,每个片段时长1秒,涵盖多种发音者和不同的口音及噪声条件。

数据集内容

  • 包含从 zeronine 的文件夹,每个文件夹内含16kHz采样率的音频文件,对应每个数字的发音。
  • validation_list.txt 文件,列出了验证集的音频文件。
  • testing_list.txt 文件,列出了测试集的音频文件。
  • 原始的 LICENSE 文件。

数据集用途

该数据集被用于训练 SaShiMi 模型和基线模型,数据集的训练、验证和测试集划分遵循 validation_list.txttesting_list.txt 中的规定。

附加数据集

  • sc09_quantized.zip 文件,包含用于 MTurk 研究的示例。这些示例是从每个数字类别中随机选取的50个样本,经过 mu-law 量化和解量化处理,模拟了自回归模型训练过程中遇到的量化噪声。

引用信息

若在研究中使用此数据集,建议使用以下 BibTeX 条目引用相关工作:

@article{goel2022sashimi, title={Its Raw! Audio Generation with State-Space Models}, author={Goel, Karan and Gu, Albert and Donahue, Chris and R{e}, Christopher}, journal={arXiv preprint arXiv:2202.09729}, year={2022} }

@inproceedings{donahue2019adversarial, title={Adversarial Audio Synthesis}, author={Donahue, Chris and McAuley, Julian and Puckette, Miller}, booktitle={International Conference on Learning Representations}, year={2019} }

@article{Warden2018SpeechCA, title={Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}, author={Pete Warden}, journal={ArXiv}, year={2018}, volume={abs/1804.03209} }

搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别与音频生成领域,SC09数据集作为一项关键资源,其构建过程体现了严谨的数据采集与处理原则。该数据集源自Warden(2018)为关键词识别任务所创建的语音指令数据集,从中精选出数字零至九的发音片段。每个音频片段时长为一秒,采样率为16kHz,涵盖了多样化的说话者、口音及环境噪声条件,确保了数据的广泛代表性。后续研究团队依据原始数据提供的验证与测试列表,将数据划分为训练集、验证集和测试集,以支持模型训练与评估。此外,为模拟自回归模型在μ律量化下的噪声特性,还生成了经过量化与反量化处理的衍生版本,进一步拓展了数据集的实验用途。
使用方法
在音频生成与语音识别的研究实践中,SC09数据集提供了清晰的使用路径。研究人员可直接下载包含数字分类文件夹的压缩文件,其中每个文件夹对应一个数字的音频样本,便于按类别进行数据加载与分析。利用附带的验证列表和测试列表文件,可以轻松复现标准的训练、验证与测试分割,确保实验设置与既有研究保持一致。对于生成模型研究,原始波形数据可直接用于训练状态空间模型等架构;而量化版本则适用于探究量化噪声对音频质量的影响。在学术引用时,建议依据提供的BibTeX条目,恰当引用相关原始文献,以尊重数据集的知识传承。
背景与挑战
背景概述
SC09数据集源于语音识别领域的关键词检测需求,由Pete Warden于2018年首次提出,旨在为有限词汇的语音识别任务提供标准化音频资源。该数据集收录了包含数字零至九的1秒语音片段,涵盖多样化的说话者、口音及噪声环境,为后续研究奠定了数据基础。2019年,Donahue等人将其拓展为无条件音频生成的基准测试平台,进一步推动了音频合成技术的发展。2022年,Goel等学者在状态空间模型研究中再次利用该数据集,验证了其在原始音频生成任务中的有效性,彰显了其在语音处理与生成领域的持久影响力。
当前挑战
SC09数据集的核心挑战在于解决有限词汇语音识别中的环境鲁棒性问题,需在多样口音与噪声条件下准确识别孤立数字词汇,这对模型的泛化能力提出了较高要求。在构建过程中,数据采集需平衡说话者多样性、背景噪声及录音设备差异,确保样本的代表性与一致性;此外,数据预处理涉及严格的时长对齐与采样率标准化,以维持波形数据的完整性。后续研究中,该数据集被用于无条件音频生成任务,其挑战扩展至生成高质量、多样化的原始音频波形,需克服建模复杂时序依赖与量化噪声影响等难题。
常用场景
经典使用场景
在音频生成领域,SC09数据集以其简洁的1秒数字语音片段和多样化的说话者背景,为无条件音频生成任务提供了标准化的测试平台。研究者常利用该数据集评估生成模型在复杂声学环境下的表现,通过对比不同模型生成的数字语音质量,推动音频合成技术的边界。
解决学术问题
SC09数据集有效解决了有限词汇语音识别与原始音频生成中的关键挑战,如说话者变异性、环境噪声干扰等。它为学术界提供了量化评估生成模型保真度与多样性的基准,促进了对抗性音频合成、状态空间模型等前沿方法的发展,深化了对音频信号本质的理解。
实际应用
在实际应用中,SC09数据集常被用于智能语音助手的关键词唤醒系统优化,通过模拟真实场景中的口音和噪声条件,提升设备对数字指令的识别鲁棒性。同时,其在教育科技领域辅助开发语音交互式学习工具,增强用户体验的沉浸感与自然度。
数据集最近研究
最新研究方向
在音频生成领域,SC09数据集作为原始音频波形的重要资源,正推动着无条件音频生成的前沿探索。基于状态空间模型的生成方法,如SaShiMi,利用该数据集验证了在复杂声学条件下生成高质量语音片段的潜力,这为克服传统自回归模型在量化噪声方面的局限提供了新思路。当前研究热点聚焦于提升生成音频的保真度与多样性,通过结合对抗性训练与量化技术,旨在优化模型对多说话人、多口音及噪声环境的适应性。这些进展不仅深化了语音合成与关键词识别任务的交叉融合,也为低资源场景下的音频处理应用奠定了理论基础,具有显著的学术与工程意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作