Free Spoken Digit Dataset (FSDD)

github2019-11-12 更新2024-05-31 收录

下载链接：

https://github.com/sebashc3712/free-spoken-digit-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个简单的音频/语音数据集，包含以8kHz采样的`wav`文件中发音的数字。录音经过剪辑，开头和结尾的静音被最小化。

A straightforward audio/speech dataset comprising spoken digits recorded in `wav` files sampled at 8kHz. The recordings have been trimmed to minimize leading and trailing silence.

创建时间：

2018-03-24

原始信息汇总

数据集概述

名称: Free Spoken Digit Dataset (FSDD)
类型: 音频/语音数据集
格式: wav 文件，8kHz采样率
特点: 录音已修剪，确保开始和结束时仅有最小化的静音

当前状态

发言人数量: 3
录音数量: 1,500（每位发言人每数字50次）
语言: 英语发音

组织结构

文件命名规则: {digitLabel}_{speakerName}_{index}.wav
示例: 7_jackson_32.wav

贡献指南

录音要求: 单声道8kHz wav 文件，修剪至最小静音
元数据更新: 更新 metadata.py 中的发言人元数据
录音和处理: 遵循 acquire_data/say_numbers_prompt.py 中的录音指南，并使用 split_and_label_numbers.py 处理文件

元数据

内容: metadata.py 包含关于发言人性别和口音的元数据

包含的工具

trimmer.py: 修剪音频文件开始和结束的静音，按静音周期分割音频文件
fsdd.py: 提供访问数据的简单API
spectogramer.py: 用于创建音频数据的光谱图，常用于预处理步骤

使用指南

测试集: 前10%的录音（编号0-4）
训练集: 其余录音（编号5-49）

许可证

类型: Creative Commons Attribution-ShareAlike 4.0 International
链接: Creative Commons Attribution-ShareAlike 4.0 International

搜集汇总

数据集介绍

构建方式

Free Spoken Digit Dataset (FSDD) 是通过采集发音人朗读数字的音频构建而成，每个音频文件均为8kHz采样率的单声道wav格式。录音经过剪辑，以尽量减少起始和结束部分的静默。该数据集采用开源方式，随着贡献数据的增加，数据集会不断扩充，并通过git标签进行版本控制，确保科研工作中的可再现性和准确引用。

特点

FSDD数据集具备以下特点：包含3位发音人的1,500条录音，每位发音人朗读每个数字50次，均为英语发音。文件命名遵循特定格式，便于识别和管理。数据集包含与发音人相关的元数据，如性别和口音信息。此外，数据集提供了多个实用工具，包括音频剪辑、数据访问API和频谱图生成等。

使用方法

使用FSDD数据集时，官方测试集由录音的前10%组成，编号0-4的录音属于测试集，编号5-49的录音属于训练集。贡献数据时，需遵循录音指南，并使用提供的数据处理脚本进行文件分割和标记。数据集可通过提供的API类方便地访问，并已在多个项目中得到应用，如基于Accord.NET框架的spoken digits分类示例。

背景与挑战

背景概述

Free Spoken Digit Dataset (FSDD)是一款专注于语音识别领域的开源数据集，创建于近年，由多个研究者和机构共同维护。该数据集的核心研究问题是提高语音识别算法对简单数字语音的识别准确性。它包含了以英语发音的数字录音，采用8kHz采样率，并经过剪辑以减少首尾的静音部分。FSDD数据集以其开放性和可扩展性，在学术界和工业界产生了广泛影响，为语音识别技术的研究与发展提供了宝贵的资源。

当前挑战

FSDD数据集在构建过程中遇到的挑战主要包括：确保录音的质量和一致性，以及数据集的持续扩展与版本控制。在研究领域，该数据集面临的挑战是如何在多种环境下保持高识别率，以及如何处理不同说话人的语音差异。此外，构建高效的数据预处理和特征提取工具，以适应不同的语音识别模型，也是当前研究的重要课题。

常用场景

经典使用场景

在语音识别与处理研究领域，Free Spoken Digit Dataset (FSDD) 被广泛用于构建和评估基础语音识别模型。其包含了清晰录制、修剪去杂音的数字语音样本，使得研究人员能够专注于模型对纯净语音信号的识别准确性，进而优化算法性能。

衍生相关工作

基于FSDD，研究人员衍生出了多项相关工作，包括但不限于探索更复杂的语音识别算法，如图卷积网络和深度学习模型，以及利用该数据集进行跨语种语音识别的研究。

数据集最近研究