voice_datasets

github2023-05-19 更新2024-05-31 收录

下载链接：

https://github.com/sigsep/voice_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含超过40个开源语音和音乐数据集的综合列表，适用于语音和声音计算领域。

This is a comprehensive list comprising over 40 open-source speech and music datasets, suitable for the field of speech and sound computing.

创建时间：

2020-09-12

原始信息汇总

数据集概述

本数据集名为“voice_datasets”，是一个开放源代码的语音和音乐数据集综合列表。该数据集旨在为语音和音频处理领域的研究者和开发者提供丰富的资源。数据集分为两大类：语音数据集和音频事件/音乐数据集。

语音数据集

Arabic Speech Corpus
- 大小：1.5 GB
- 描述：包含超过3.7小时的现代标准阿拉伯语（MSA）语音，用于语音合成。
ASR datasets
- 描述：公开可用的音频数据列表，适用于自动语音识别（ASR）或其他语音活动。
AudioMNIST
- 描述：包含30000个由60个不同说话者说出的数字（0-9）的音频样本。
Common Voice
- 大小：12GB
- 描述：Mozilla的倡议，用于帮助机器学习如何识别真实人类的语音。
CHIME
- 大小：约4GB
- 描述：一个嘈杂的语音识别挑战数据集，包含真实、模拟和清洁的语音记录。
CREMA-D
- 描述：包含7,442个来自91个演员的原始片段，用于情感识别。
Deep Clustering Dataset
- 描述：用于训练深度判别嵌入以解决鸡尾酒会问题。
Emotional Voices Database
- 描述：包含5个声音演员表达的不同情绪（愉快、愤怒、厌恶、中性、困倦）。
Free Spoken Digit Dataset
- 描述：包含4个说话者，2000个录音，英语发音。
ISOLET Data Set
- 大小：38.7 GB
- 描述：帮助预测哪个字母名称被说出的数据集。
LibriSpeech
- 描述：约1000小时的16Khz英语朗读语音，源自LibriVox项目。
LJ Speech
- 描述：包含13,100个由单一说话者朗读的短音频片段，总时长约24小时。
Microsoft Scalable Noisy Speech Dataset
- 描述：可扩展的嘈杂语音数据集，可根据需要调整大小。
Multimodal EmotionLines Dataset (MELD)
- 描述：增强和扩展的EmotionLines数据集，包含音频和视觉模态。
Noisy Dataset
- 描述：清洁和嘈杂的并行语音数据库，设计用于训练和测试语音增强方法。
Parkinsons speech dataset
- 大小：20 MB
- 描述：包含20名帕金森病患者和20名健康受试者的多种声音记录。
Persian Consonant Vowel Combination (PCVC) Speech Dataset
- 描述：现代波斯语语音语料库，用于语音识别和说话者识别。
The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)
- 大小：24.8 GB
- 描述：包含24名专业演员表达的多种情绪的语音和歌曲。
VoxCeleb
- 描述：大规模的说话者识别数据集，包含约100,000个来自1,251名名人的语音片段。

音频事件和音乐数据集

AudioSet
- 描述：包含632种音频事件类别的扩展本体和2,084,320个人类标记的10秒声音片段。
Bird audio detection challenge
- 大小：5.4 GB
- 描述：包含在真实生物声学监测项目中收集的新数据集。
Free Music Archive
- 大小：1000 GB
- 描述：用于音乐分析的数据集。
Million Song Dataset
- 大小：280 GB
- 描述：包含一百万当代流行音乐曲目的音频特征和元数据。
MUSDB18
- 大小：22 GB
- 描述：用于音乐源分离的多轨音乐数据集。
Urban Sound Dataset
- 描述：为城市声音研究提供两个数据集和一个分类法。

搜集汇总

数据集介绍

构建方式

voice_datasets数据集通过整合多个开源语音和音乐数据集构建而成，涵盖了广泛的语音和音频事件数据。其构建过程依赖于公开可用的资源，如LibriSpeech、Common Voice等，这些资源提供了大量的语音样本和对应的文本转录。数据集的设计旨在支持语音识别、情感分析、语音合成等多种语音计算任务。通过从不同的公开数据源中提取和整理数据，确保了数据集的多样性和广泛适用性。

特点

voice_datasets数据集的特点在于其多样性和广泛性。它不仅包含了多种语言的语音数据，如阿拉伯语、波斯语等，还涵盖了不同情感状态下的语音样本，如愤怒、快乐、悲伤等。此外，数据集还包含了大量的音频事件数据，如环境声音、音乐片段等。这些数据经过精心标注，确保了其在语音识别、情感分析、音频事件检测等任务中的高效应用。数据集的规模从几千个样本到数百万个样本不等，能够满足不同研究需求。

使用方法

voice_datasets数据集的使用方法灵活多样，适用于多种语音和音频处理任务。研究人员可以通过GitHub页面获取数据集的详细信息和下载链接。数据集中的每个子集都附带了详细的元数据和标注信息，便于用户根据具体需求进行筛选和使用。例如，对于语音识别任务，可以使用LibriSpeech或Common Voice数据集；对于情感分析任务，可以选择CREMA-D或RAVDESS数据集。此外，数据集还提供了丰富的文档和示例代码，帮助用户快速上手并进行模型训练和评估。

背景与挑战

背景概述

voice_datasets数据集由Jim Schwoebel在2019年VOICE Summit上发布，旨在为语音和音乐研究领域提供一个全面的开源数据集集合。该数据集涵盖了多种语音和音频事件数据集，广泛应用于语音识别、情感分析、语音合成、音频事件检测等研究领域。其核心研究问题在于如何通过多样化的语音和音频数据，提升机器对语音和音频信号的理解与处理能力。该数据集的发布为相关领域的研究者提供了丰富的资源，推动了语音计算和音频分析技术的发展。

当前挑战

voice_datasets数据集面临的挑战主要体现在两个方面。首先，语音和音频数据的多样性和复杂性使得模型在处理不同语言、口音、情感表达以及环境噪声时表现不一，如何设计鲁棒的模型以应对这些变化是一个重要挑战。其次，数据集的构建过程中，数据的采集、标注和清洗工作极为繁琐，尤其是在多语言、多情感、多环境噪声的情况下，确保数据的质量和一致性尤为困难。此外，随着语音和音频技术的快速发展，如何持续更新和扩展数据集以涵盖新兴的研究需求，也是该数据集面临的一大挑战。

常用场景

经典使用场景

在语音识别和语音合成领域，voice_datasets提供了丰富的语音数据集，涵盖了多种语言、口音和情感表达。这些数据集广泛应用于训练和测试自动语音识别（ASR）系统、语音情感分析模型以及语音合成技术。例如，LibriSpeech和Common Voice数据集常用于构建高精度的语音识别模型，而RAVDESS和CREMA-D数据集则被用于情感语音分析的研究。

衍生相关工作

voice_datasets催生了许多经典研究工作。例如，基于LibriSpeech和VoxCeleb数据集的研究推动了说话人识别技术的发展。RAVDESS和CREMA-D数据集则被广泛用于情感语音识别模型的开发。此外，WHAM!和WHAMR!数据集为语音分离和噪声消除算法提供了基准测试平台。这些衍生工作不仅推动了语音技术的进步，也为相关领域的交叉研究提供了新的视角。

数据集最近研究