Free Spoken Digit Dataset (FSDD)|语音识别数据集|数字识别数据集
收藏Free Spoken Digit Dataset (FSDD) 概述
数据集描述
- 类型: 音频/语音数据集
- 内容: 包含以8kHz采样的
wav
格式录音,内容为英语发音的数字。 - 处理: 录音已修剪,确保开头和结尾的静音最小化。
当前状态
- 发言人数量: 3
- 录音数量: 1,500(每位发言人每数字50次)
- 语言: 英语发音
组织结构
- 文件命名规则:
{digitLabel}_{speakerName}_{index}.wav
- 示例:
7_jackson_32.wav
贡献指南
- 格式要求: 单声道8kHz
wav
文件,需修剪至静音最小。 - 元数据更新: 需更新
metadata.py
中的发言人元数据。 - 数据添加流程: 遵循
acquire_data/say_numbers_prompt.py
中的录音指南,并运行split_and_label_numbers.py
处理文件。
元数据
- 存储位置:
metadata.py
- 内容: 发言人性别和口音信息
包含的工具
- trimmer.py: 用于修剪音频文件开头和结尾的静音,以及根据静音分割音频文件。
- fsdd.py: 提供访问数据的简单API。
- spectogramer.py: 用于创建音频数据的光谱图,常用于预处理步骤。
使用说明
- 测试集: 前10%的录音,编号
0-4
(包含)。 - 训练集: 编号
5-49
的录音。
许可证
- 类型: 创意共享Attribution-ShareAlike 4.0国际许可证
- 链接: Creative Commons Attribution-ShareAlike 4.0 International

- Free Spoken Digit Dataset (FSDD) 首次发布,由Zohar Jackson创建,旨在为语音识别领域的研究提供一个公开且易于使用的数据集。
- FSDD 被广泛应用于语音识别和机器学习研究中,成为初学者和研究人员常用的基准数据集之一。
- FSDD 的版本更新,增加了更多的语音样本和多样性,以提高数据集的覆盖范围和实用性。
- FSDD 被用于多个国际会议和研讨会的研究展示,进一步提升了其在学术界的影响力。
- FSDD 的社区贡献开始增加,更多的研究人员和开发者参与到数据集的扩展和优化中。
- FSDD 被整合到多个开源机器学习框架中,成为语音处理和识别任务的标准数据集之一。
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
CADC
The CADC dataset aims to promote research to improve self-driving in adverse weather conditions. This is the first public dataset to focus on real world driving data in snowy weather conditions. It features: For this dataset, routes were chosen with various levels of traffic, a variety of vehicles and always with snowfall. Sequences were selected from data collected within the Region of Waterloo, Canada. We collected data using the Autonomoose, a Lincoln MKZ Hybrid mounted with a full suite of LiDAR, inertial and vision sensors. Please refer to the figure below for the sensor configuration of the Autonomoose.
帕依提提 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录