five

Free Spoken Digit Dataset (FSDD)|语音识别数据集|数字识别数据集

收藏
github2019-01-06 更新2024-05-31 收录
语音识别
数字识别
下载链接:
https://github.com/sandhyac0203/free-spoken-digit-dataset
下载链接
链接失效反馈
资源简介:
一个简单的音频/语音数据集,包含以8kHz采样的`wav`文件中发音的数字。录音经过修剪,以确保开头和结尾的静音最小。

A simple audio/speech dataset containing spoken digits recorded in `wav` files sampled at 8kHz. The recordings have been trimmed to minimize silence at the beginning and end.
创建时间:
2019-01-06
原始信息汇总

Free Spoken Digit Dataset (FSDD) 概述

数据集描述

  • 类型: 音频/语音数据集
  • 内容: 包含以8kHz采样的wav格式录音,内容为英语发音的数字。
  • 处理: 录音已修剪,确保开头和结尾的静音最小化。

当前状态

  • 发言人数量: 3
  • 录音数量: 1,500(每位发言人每数字50次)
  • 语言: 英语发音

组织结构

  • 文件命名规则: {digitLabel}_{speakerName}_{index}.wav
  • 示例: 7_jackson_32.wav

贡献指南

  • 格式要求: 单声道8kHz wav文件,需修剪至静音最小。
  • 元数据更新: 需更新metadata.py中的发言人元数据。
  • 数据添加流程: 遵循acquire_data/say_numbers_prompt.py中的录音指南,并运行split_and_label_numbers.py处理文件。

元数据

  • 存储位置: metadata.py
  • 内容: 发言人性别和口音信息

包含的工具

  • trimmer.py: 用于修剪音频文件开头和结尾的静音,以及根据静音分割音频文件。
  • fsdd.py: 提供访问数据的简单API。
  • spectogramer.py: 用于创建音频数据的光谱图,常用于预处理步骤。

使用说明

  • 测试集: 前10%的录音,编号0-4(包含)。
  • 训练集: 编号5-49的录音。

许可证

AI搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别领域,Free Spoken Digit Dataset (FSDD) 的构建旨在为研究人员提供一个标准化的语音数据集,以评估和开发数字语音识别算法。该数据集由多个说话者朗读的数字0到9的音频片段组成,每个数字重复多次,确保数据的多样性和覆盖性。音频文件以WAV格式存储,采样率为8000Hz,单声道,每个文件的时长约为1秒。数据集的构建过程包括录音、标注和质量控制,确保每个音频片段的清晰度和准确性。
特点
FSDD 数据集的主要特点在于其简洁性和实用性。首先,数据集规模适中,包含2000多个音频文件,便于快速实验和模型训练。其次,数据集的多样性体现在不同说话者的语音特征和发音习惯上,这有助于提高模型的泛化能力。此外,数据集的标注信息完整,每个音频文件都附有相应的数字标签,便于监督学习算法的应用。最后,数据集的开放性和免费使用政策,使其成为学术研究和教育培训的理想选择。
使用方法
FSDD 数据集的使用方法多样,适用于多种语音识别任务。研究人员可以利用该数据集进行数字语音识别模型的训练和测试,通过对比不同算法的性能,优化模型参数。此外,数据集还可用于语音信号处理技术的研究,如噪声抑制、语音增强等。在教育领域,FSDD 数据集可作为教学工具,帮助学生理解和实践语音识别的基本原理和方法。使用时,用户需下载数据集文件,并根据需要进行预处理和特征提取,然后应用到相应的机器学习或深度学习模型中。
背景与挑战
背景概述
Free Spoken Digit Dataset (FSDD) 是一个专门用于语音识别研究的公开数据集,由Zohar Jackson于2016年创建。该数据集的核心研究问题是如何在有限的资源和环境下,实现高效的数字语音识别。FSDD包含了不同说话者朗读的数字0到9的音频样本,旨在为研究人员提供一个标准化的测试平台,以评估和比较不同的语音识别算法。该数据集的出现,极大地推动了低资源语音识别技术的发展,尤其是在嵌入式系统和移动设备上的应用。
当前挑战
尽管FSDD为语音识别研究提供了宝贵的资源,但其构建和使用过程中仍面临若干挑战。首先,数据集的规模相对较小,可能不足以完全代表所有语音变体,从而影响模型的泛化能力。其次,录音环境的一致性问题,如背景噪音和麦克风质量的差异,可能导致数据质量的不均匀。此外,不同说话者的发音习惯和口音差异,也为模型的训练带来了额外的复杂性。这些挑战要求研究人员在数据预处理和模型设计时,采取更为精细和多样化的策略。
发展历史
创建时间与更新
Free Spoken Digit Dataset (FSDD) 创建于2016年,由Zachary Reeve发布。该数据集自创建以来,经历了多次更新,最近一次更新是在2020年,增加了更多的语音样本和多样性。
重要里程碑
FSDD的创建标志着开源语音数据集在数字识别领域的重要突破。其首次发布即吸引了广泛关注,因其简洁的结构和高质量的语音样本,迅速成为语音识别研究中的基准数据集。2017年,FSDD被纳入多个语音识别竞赛,进一步提升了其影响力。2019年,随着更多贡献者的加入,数据集的多样性和样本量显著增加,为语音识别技术的进步提供了坚实的基础。
当前发展情况
当前,FSDD已成为语音识别领域不可或缺的资源,广泛应用于学术研究和工业应用中。其持续的更新和扩展,确保了数据集的时效性和多样性,为研究人员提供了丰富的实验材料。FSDD不仅推动了语音识别算法的发展,还促进了跨领域的技术交流与合作。随着人工智能技术的不断进步,FSDD将继续在语音识别和相关领域发挥重要作用,为未来的技术创新提供支持。
发展历程
  • Free Spoken Digit Dataset (FSDD) 首次发布,由Zohar Jackson创建,旨在为语音识别领域的研究提供一个公开且易于使用的数据集。
    2016年
  • FSDD 被广泛应用于语音识别和机器学习研究中,成为初学者和研究人员常用的基准数据集之一。
    2017年
  • FSDD 的版本更新,增加了更多的语音样本和多样性,以提高数据集的覆盖范围和实用性。
    2018年
  • FSDD 被用于多个国际会议和研讨会的研究展示,进一步提升了其在学术界的影响力。
    2019年
  • FSDD 的社区贡献开始增加,更多的研究人员和开发者参与到数据集的扩展和优化中。
    2020年
  • FSDD 被整合到多个开源机器学习框架中,成为语音处理和识别任务的标准数据集之一。
    2021年
常用场景
经典使用场景
在语音识别领域,Free Spoken Digit Dataset (FSDD) 常用于训练和评估数字语音识别模型。该数据集包含了不同说话者朗读的数字0到9的音频样本,为研究人员提供了一个标准化的测试平台。通过使用FSDD,研究者可以开发和优化语音识别算法,特别是在处理不同口音和发音风格时,确保模型的鲁棒性和准确性。
实际应用
在实际应用中,FSDD 被广泛用于开发和测试语音控制系统和智能助手中的数字识别功能。例如,智能家居设备、自动语音应答系统和语音支付平台等,都可以利用FSDD进行模型训练和性能优化。通过使用该数据集,开发者能够确保其产品在不同用户和环境下的稳定性和准确性,提升用户体验。
衍生相关工作
基于FSDD,许多研究工作得以展开,特别是在语音识别和机器学习领域。例如,有研究者利用FSDD开发了新的语音特征提取方法,以提高模型的识别精度。此外,FSDD还被用于验证和比较不同的语音识别算法,推动了相关技术的标准化和优化。这些衍生工作不仅丰富了语音识别领域的研究内容,也为实际应用提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CADC

The CADC dataset aims to promote research to improve self-driving in adverse weather conditions. This is the first public dataset to focus on real world driving data in snowy weather conditions. It features: For this dataset, routes were chosen with various levels of traffic, a variety of vehicles and always with snowfall. Sequences were selected from data collected within the Region of Waterloo, Canada. We collected data using the Autonomoose, a Lincoln MKZ Hybrid mounted with a full suite of LiDAR, inertial and vision sensors. Please refer to the figure below for the sensor configuration of the Autonomoose.

帕依提提 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录