voice_datasets

github2020-08-28 更新2024-05-31 收录

下载链接：

https://github.com/Mewlvd/voice_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含超过40个开源语音和音乐数据集的综合列表，适用于语音和声音计算领域。

A comprehensive list of over 40 open-source speech and music datasets, suitable for the field of speech and sound computing.

创建时间：

2020-08-27

原始信息汇总

数据集概述

本数据集名为“voice_datasets”，是一个包含多种开放源语音和音乐数据集的综合列表。数据集主要分为两大类：语音数据集和音频事件/音乐数据集。

语音数据集

Arabic Speech Corpus - 包含超过3.7小时的现代标准阿拉伯语（MSA）语音，大小为1.5 GB。
ASR datasets - 公开可下载的音频数据列表，适用于ASR或其他语音活动。
AudioMNIST - 包含60个不同说话者的30000个语音数字样本。
Awesome_Diarization - 精选的Speaker Diarization资源列表。
Common Voice - Mozilla的语音数据集，大小为12GB，用于帮助机器学习真实的人类语音。
CHIME - 包含真实、模拟和清洁语音记录的挑战数据集，大小约4GB。
CREMA-D - 包含7,442个片段，来自91名演员，用于情感识别。
DAPS Dataset - 包含20名说话者，每人约14分钟的数据。
Emotional Voices Database - 包含5名演员的不同情感语音。
Free Spoken Digit Dataset - 包含4名说话者的2000个语音数字样本。
ISOLET Data Set - 38.7 GB的数据集，用于预测所讲的字母名称。
LibriSpeech - 约1000小时的英语语音数据，来自LibriVox项目。
LJ Speech - 包含13,100个短音频片段，总长约24小时。
Microsoft Scalable Noisy Speech Dataset - 可根据需求扩展的噪声语音数据集。
Multimodal EmotionLines Dataset (MELD) - 包含超过1400个对话和13000个话语的多模态情感数据集。
Noisy Dataset - 清洁和噪声并行的语音数据库，用于语音增强方法的训练和测试。
Parkinsons speech dataset - 包含20名帕金森病患者和20名健康个体的多种声音记录。
Persian Consonant Vowel Combination (PCVC) Speech Dataset - 用于语音识别和说话者识别的现代波斯语语音数据集。
The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) - 包含24名专业演员的情感语音和歌曲，总大小24.8 GB。
VoxCeleb - 包含100,000个语音片段，来自1,251名名人，用于说话者识别。

音频事件和音乐数据集

AudioSet - 包含632种音频事件类别的数据集，大小为2,084,320个10秒的音频片段。
Bird audio detection challenge - 包含新的生物声学监测项目数据集，大小为5.4 GB。
Free Music Archive - 用于音乐分析的数据集，大小为1000 GB。
Karoldvl-ESC - 包含2000个环境音频记录，适用于环境声音分类。
Million Song Dataset - 包含一百万首当代流行音乐的音频特征和元数据，大小为280 GB。
Urban Sound Dataset - 包含两个数据集和一个城市声音研究的分类法。

搜集汇总

数据集介绍

构建方式

voice_datasets数据集通过整合多个开源语音和音乐数据集构建而成，涵盖了广泛的语音和音频事件类别。数据来源包括公开的语音语料库、音频事件数据集以及音乐数据集，涵盖了从语音识别到情感分析、环境音检测等多个领域。数据集的构建过程注重多样性和代表性，确保数据来源的广泛性和质量，涵盖了不同语言、口音、情感表达以及环境音效。

特点

voice_datasets数据集的特点在于其多样性和全面性。它包含了从语音语料库到音乐数据集的多模态数据，涵盖了多种语言、口音、情感表达以及环境音效。数据集中的语音数据不仅包括标准语音，还涵盖了带有噪声的语音、情感语音以及多说话人混合语音。此外，数据集还提供了丰富的元数据，如语音的文本转录、情感标签、噪声类型等，为语音识别、情感分析、噪声抑制等任务提供了强有力的支持。

使用方法

voice_datasets数据集的使用方法灵活多样，适用于多种语音和音频处理任务。用户可以根据需求选择特定的子数据集进行下载和使用，如语音识别任务可以选择LibriSpeech或Common Voice数据集，情感分析任务可以选择CREMA-D或RAVDESS数据集。数据集通常以音频文件和相关元数据的形式提供，用户可以通过编程接口或命令行工具进行数据加载和处理。此外，数据集还提供了详细的文档和示例代码，帮助用户快速上手并应用于实际项目中。

背景与挑战

背景概述

voice_datasets数据集由Jim Schwoebel在2019年VOICE Summit上发布，旨在为语音和音乐研究领域提供一个全面的开源数据集集合。该数据集涵盖了多种语音和音频事件数据集，广泛应用于语音识别、情感分析、语音合成、音频事件检测等研究领域。其核心研究问题在于如何通过多样化的语音和音频数据，推动语音计算和音频分析技术的发展。该数据集的发布为相关领域的研究人员提供了丰富的资源，极大地促进了语音计算和音频处理技术的进步。

当前挑战

voice_datasets面临的挑战主要体现在两个方面。首先，语音和音频数据的多样性和复杂性使得数据标注和预处理变得极为困难，尤其是在多语言、多口音和多情感场景下，如何确保数据的准确性和一致性是一个重要问题。其次，数据集的构建过程中，如何平衡数据的规模与质量，以及如何获取高质量的真实环境录音，尤其是在噪声环境下的语音数据，仍然是一个技术难题。此外，数据集的开放性和可扩展性也要求开发者不断更新和维护数据集，以应对新兴的研究需求。

常用场景

经典使用场景

在语音识别和语音合成领域，voice_datasets为研究人员提供了丰富的语音数据资源。例如，LibriSpeech数据集被广泛用于训练和测试自动语音识别（ASR）系统，而LJ Speech数据集则常用于语音合成模型的开发。这些数据集不仅涵盖了多种语言和口音，还包含了不同情感和背景噪声的语音样本，为语音技术的多维度研究提供了坚实的基础。

解决学术问题

voice_datasets解决了语音技术研究中的多个关键问题。首先，它提供了多样化的语音数据，帮助研究人员克服数据稀缺的挑战，尤其是在低资源语言和方言的研究中。其次，数据集中的噪声和情感标注数据为语音增强和情感识别算法的开发提供了重要支持。此外，通过提供多模态数据（如MELD数据集），voice_datasets还推动了语音与视觉信息的融合研究，提升了多模态情感分析的准确性。

衍生相关工作

voice_datasets衍生了许多经典的研究工作。例如，基于LibriSpeech和WHAM!数据集的研究推动了语音分离技术的发展，解决了“鸡尾酒会问题”。VoxCeleb数据集则催生了大量声纹识别和说话人验证的研究，提升了相关技术的准确性和鲁棒性。此外，MELD数据集的多模态特性激发了情感计算领域的新方法，推动了语音与视觉信息的深度融合。这些衍生工作不仅拓展了语音技术的研究边界，还为相关领域的创新提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集