five

Free Spoken Digit Dataset (FSDD)|语音识别数据集|音频数据集数据集

收藏
github2020-06-20 更新2024-05-31 收录
语音识别
音频数据集
下载链接:
https://github.com/imblackdevil123/free-spoken-digit-dataset
下载链接
链接失效反馈
资源简介:
一个简单的音频/语音数据集,包含以8kHz采样的语音数字的`wav`文件。录音经过修剪,以确保开头和结尾几乎没有静音。这是一个开放数据集,随着数据的贡献,数据集会不断增长。目前包括4位发言者,2000条录音,每位发言者每数字50条,使用英语发音。

A straightforward audio/speech dataset comprising `wav` files of spoken digits sampled at 8kHz. The recordings have been trimmed to ensure minimal silence at the beginning and end. This is an open dataset that continues to expand as more data is contributed. Currently, it includes 4 speakers and 2000 recordings, with 50 recordings per digit per speaker, all pronounced in English.
创建时间:
2020-05-21
原始信息汇总

数据集概述

  • 名称: Free Spoken Digit Dataset (FSDD)
  • 类型: 音频/语音数据集
  • 格式: wav 文件,采样率为8kHz
  • 内容: 包含4位说话者的2,000个录音,每位说话者每个数字有50个录音,使用英语发音。

数据集组织

  • 文件命名规则: {digitLabel}_{speakerName}_{index}.wav
  • 示例: 7_jackson_32.wav

数据集贡献

  • 录音要求: 单声道8kHz wav 文件,需去除开头和结尾的静音。
  • 贡献流程: 遵循acquire_data/say_numbers_prompt.py中的录音指南,并使用split_and_label_numbers.py处理文件。
  • 元数据更新: 更新metadata.py中的说话者元数据。

元数据

  • 包含内容: 说话者的性别和口音信息。

包含的实用工具

  • trimmer.py: 用于去除音频文件开头和结尾的静音,以及根据静音分割音频文件。
  • fsdd.py: 提供访问数据的简单API。
  • spectogramer.py: 用于创建音频数据的光谱图。

使用说明

  • 测试集: 前10%的录音,即编号0-4的录音。
  • 训练集: 编号5-49的录音。

许可证

  • 类型: Creative Commons Attribution-ShareAlike 4.0 International
AI搜集汇总
数据集介绍
main_image_url
构建方式
Free Spoken Digit Dataset (FSDD) 的构建过程主要依赖于志愿者的语音贡献。每位贡献者通过录制英文数字发音,生成8kHz的单声道wav文件,并经过修剪以去除首尾的静音部分。数据集通过Git标签和Zenodo DOI进行版本控制,确保数据的可追溯性和可复现性。此外,数据集的组织结构遵循特定的命名规则,便于数据的管理和检索。
特点
FSDD数据集的特点在于其简洁性和开放性。数据集包含四位不同说话者的2000条录音,每位说话者对每个数字录制50次,确保了数据的多样性和丰富性。所有录音均为8kHz的单声道wav文件,且经过修剪以减少静音部分,使得数据更加紧凑和实用。数据集还提供了元数据,包括说话者的性别和口音信息,为研究提供了更多的维度。
使用方法
FSDD数据集的使用方法灵活多样。数据集官方将前10%的录音划分为测试集,其余为训练集,便于用户进行模型训练和测试。数据集提供了多个实用工具,如`trimmer.py`用于修剪静音,`spectogramer.py`用于生成音频的频谱图,`fsdd.py`则提供了一个简单的API接口,方便用户访问数据。此外,数据集支持多种编程语言和框架,如C#/.NET,用户可以根据需要选择合适的工具进行数据处理和分析。
背景与挑战
背景概述
Free Spoken Digit Dataset (FSDD) 是一个专注于语音识别的开放数据集,旨在为研究人员提供高质量的语音数据以支持数字识别任务。该数据集由多位研究人员共同创建,最初发布于2016年,并通过Zenodo平台进行版本管理以确保可重复性和引用准确性。FSDD包含四位不同说话者的录音,每位说话者对每个数字(0-9)录制了50次,总计2000条录音。这些录音以8kHz的采样率存储为wav文件,并经过修剪以减少首尾的静音部分。FSDD的开放性和可扩展性使其在语音识别、音频信号处理等领域具有广泛的应用价值。
当前挑战
FSDD数据集在解决语音数字识别问题时面临多重挑战。首先,语音数据的多样性和复杂性使得模型需要具备较强的泛化能力,以应对不同说话者的发音差异、语速变化以及背景噪声的干扰。其次,数据集的规模相对较小,尽管其开放特性允许不断扩展,但当前的数据量仍可能限制深度学习模型的性能。此外,数据集的构建过程中,确保录音质量的一致性以及静音部分的精确修剪也是技术难点之一。这些挑战要求研究者在数据预处理、特征提取和模型设计上进行创新,以提高语音数字识别的准确性和鲁棒性。
常用场景
经典使用场景
Free Spoken Digit Dataset (FSDD) 是一个广泛应用于语音识别和音频处理领域的开源数据集。其经典使用场景包括语音数字识别模型的训练与测试。由于数据集包含了多位发音者的录音,研究者可以利用这些数据来构建和评估语音识别算法,特别是在处理不同发音者之间的语音差异时,FSDD提供了丰富的实验数据。
衍生相关工作
FSDD 衍生了许多经典的研究工作,例如基于该数据集的多模态学习框架和语音数字分类模型。一些研究利用 FSDD 开发了新的音频特征提取方法,如梅尔频率倒谱系数(MFCC)的应用。此外,FSDD 还被用于探索深度学习在语音识别中的应用,推动了语音处理技术的发展。
数据集最近研究
最新研究方向
在语音识别和音频处理领域,Free Spoken Digit Dataset (FSDD) 作为一个开放且持续扩展的语音数据集,近年来在深度学习模型的训练与评估中发挥了重要作用。该数据集以其简洁的音频格式和清晰的标注结构,成为研究者在语音数字识别、说话人识别以及音频特征提取等任务中的首选资源。随着多模态学习和端到端语音识别技术的兴起,FSDD 被广泛应用于探索音频与文本、图像等多模态数据的融合方法。此外,该数据集的开源特性促进了全球研究者的协作,推动了语音处理技术的创新与进步。通过不断增加的录音样本和多样化的说话人背景,FSDD 为语音识别模型的鲁棒性和泛化能力提供了重要支持,成为该领域前沿研究的重要基石。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Psych-101

Psych-101数据集是一个自然语言转录的心理学实验数据集,包含了160个心理学实验的逐次数据,涉及60,092名参与者,共记录了10,681,650次选择。数据集中的选择信息被封装在“<<”和“>>”标记中。数据集的主要用途是研究人类认知的基础模型。数据集提供了详细的实验文本、实验标识符和参与者标识符。数据集的语言为英语,使用Apache 2.0许可证。

huggingface 收录

CKMImageNet

CKMImageNet是一个旨在推进AI驱动的环境感知无线通信和感知研究的综合数据集,由东南大学国家移动通信研究实验室提供。该数据集整合了位置特定的通道知识数据、高保真环境地图及其视觉表示。CKMImageNet支持多种AI驱动的方法进行通道知识图(CKM)构建,包含监督和非监督、判别和生成AI方法。数据集利用先进的射线追踪技术构建,确保了高保真度和环境准确性。它为AI模型学习环境感知传播模式提供了基础工具,可应用于6G系统的网络规划、资源分配等领域。

arXiv 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中文高质量大模型多轮对话SFT数据集

该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。

OpenDataLab 收录

riotu-lab/Synthetic-UAV-Flight-Trajectories

该数据集包含超过5000条随机无人机(UAV)轨迹,这些轨迹是在20小时的飞行时间内收集的,主要用于训练AI模型,如轨迹预测应用。数据集通过自动化管道生成和预处理无人机合成轨迹,使其可以直接用于AI模型训练。数据集的特点是参数化的轨迹,遵循预定义的模式,特别是圆形和无限路径。数据集的结构包括数据字段,如时间戳和无人机的3D位置(x, y, z坐标)。

hugging_face 收录