Free Spoken Digit Dataset (FSDD)

github2020-08-13 更新2024-05-31 收录

下载链接：

https://github.com/mhshesher/free-spoken-digit-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个简单的音频/语音数据集，包含以8kHz采样的`wav`文件中发音的数字录音。录音经过剪辑，开头和结尾的静音被最小化。

A straightforward audio/speech dataset comprising recorded pronunciations of digits, stored in `wav` files sampled at 8kHz. The recordings have been trimmed to minimize leading and trailing silence.

创建时间：

2020-07-24

原始信息汇总

数据集概述

名称: Free Spoken Digit Dataset (FSDD)
类型: 音频/语音数据集
格式: wav 文件，8kHz采样率
内容: 包含5位不同说话者发音的数字，每个数字50次，共2,500个录音
语言: 英语

数据组织

文件命名规则: {digitLabel}_{speakerName}_{index}.wav
示例: 7_jackson_32.wav

数据贡献

要求: 录音应为单声道8kHz wav 文件，且已修剪至开头和结尾的静音最小化
贡献流程: 遵循acquire_data/say_numbers_prompt.py中的录音指南，并使用split_and_label_numbers.py处理文件

元数据

存储位置: metadata.py
内容: 包含说话者的性别和口音信息

包含的工具

trimmer.py: 用于修剪音频文件开头和结尾的静音，以及根据静音分割音频文件
fsdd.py: 提供一个易于使用的API来访问数据
spectogramer.py: 用于创建音频数据的光谱图，常用于预处理步骤

使用说明

测试集: 包含前10%的录音，即编号0-4的录音
训练集: 包含编号5-49的录音

许可证

类型: Creative Commons Attribution-ShareAlike 4.0 International
链接: https://creativecommons.org/licenses/by-sa/4.0/

搜集汇总

数据集介绍

构建方式

Free Spoken Digit Dataset (FSDD) 是一个开放的语音数据集，旨在收集和整理不同说话者对数字的发音录音。数据集的构建过程包括录制、修剪和标注。每个录音均为单声道8kHz的`wav`文件，且经过修剪以减少开头和结尾的静音部分。数据集通过Git标签和Zenodo DOI进行版本控制，以确保可重复性和准确的引用。用户可以通过贡献自己的录音来扩展数据集，贡献者需按照指定的录制和标注流程进行操作。

特点

FSDD数据集的特点在于其简洁性和开放性。数据集包含5位说话者的2,500条录音，每位说话者对每个数字（0-9）录制了50次。录音文件以`{digitLabel}_{speakerName}_{index}.wav`的格式命名，便于识别和管理。数据集还提供了元数据文件，记录了说话者的性别和口音信息。此外，FSDD提供了多种实用工具，如音频修剪器、频谱图生成器以及用于访问数据的API，极大地方便了用户的使用。

使用方法

FSDD数据集的使用方法灵活多样。数据集默认将前10%的录音（编号0-4）作为测试集，其余录音（编号5-49）作为训练集。用户可以通过`fsdd.py`提供的API轻松访问数据，并使用`spectogramer.py`生成频谱图以进行预处理。此外，数据集支持在C#/.NET环境中使用，Accord.NET框架提供了对FSDD的封装类，便于在.NET应用程序中进行语音数字分类等任务。

背景与挑战

背景概述

Free Spoken Digit Dataset (FSDD) 是一个专注于语音识别的开放数据集，创建于2016年，由社区贡献者共同维护。该数据集的核心研究问题在于如何通过语音信号准确识别数字，为语音识别和音频处理领域提供了重要的基础数据。FSDD 包含五位不同说话者的录音，每位说话者对每个数字（0-9）进行了50次发音，总计2,500条录音。这些录音以8kHz的单声道WAV格式存储，并经过修剪以减少首尾的静音部分。FSDD 的开放性和可扩展性使其在语音识别、音频分类和深度学习等领域具有广泛的应用价值。

当前挑战

FSDD 数据集在解决语音数字识别问题时面临多重挑战。首先，语音信号的多样性和背景噪声的干扰使得准确识别数字变得复杂，尤其是在不同说话者的发音习惯和口音差异较大的情况下。其次，数据集的构建过程中，确保录音质量的一致性是一个关键挑战，包括录音设备的差异、环境噪声的控制以及静音部分的精确修剪。此外，随着数据集的不断扩展，如何保持数据的标准化和元数据的完整性也成为一项重要任务。这些挑战不仅影响了数据集的实用性，也对相关领域的研究提出了更高的技术要求。

常用场景

经典使用场景

Free Spoken Digit Dataset (FSDD) 是一个广泛应用于语音识别和数字音频处理研究的开源数据集。其经典使用场景包括语音数字识别模型的训练与测试，特别是在小规模数据集上进行深度学习模型的验证。由于数据集包含多位说话者的录音，研究人员可以利用其进行说话者无关的语音识别研究，探索模型在不同语音特征下的泛化能力。

解决学术问题

FSDD 解决了语音识别领域中数据稀缺和多样性不足的问题。通过提供多位说话者的录音，该数据集支持了说话者无关的语音识别研究，帮助研究人员验证模型在不同语音特征下的鲁棒性。此外，FSDD 的开放性和可扩展性为语音识别算法的可重复性研究提供了基础，推动了语音处理技术的标准化和透明化。

衍生相关工作

FSDD 衍生了许多经典的研究工作，例如基于该数据集的语音数字识别模型优化和说话者无关的语音识别算法研究。此外，FSDD 还被用于多模态学习的研究中，如与图像数据结合的跨模态学习项目。这些工作不仅扩展了 FSDD 的应用范围，也为语音识别领域的技术进步提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集