voice_datasets

github2020-09-09 更新2024-05-31 收录

下载链接：

https://github.com/garain/voice_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含超过40个开源语音和音乐数据集的综合列表，用于语音和声音计算。

A comprehensive list of over 40 open-source speech and music datasets, designed for computational analysis of voice and sound.

创建时间：

2020-04-29

原始信息汇总

数据集概述

音频数据集分类

语音数据集
音频事件/音乐数据集

语音数据集列表

2000 HUB5 English
- 描述：专注于电话中的对话语音转录任务，探索和开发新的语音识别技术。
- 来源：LDC2002T43
Arabic Speech Corpus
- 描述：现代标准阿拉伯语语音合成数据集，包含超过3.7小时的语音数据。
- 来源：ArabicSpeechCorpus
ASR datasets
- 描述：公开可用的音频数据列表，适用于自动语音识别等任务。
- 来源：GitHub
AudioMNIST
- 描述：包含30000个不同说话者发音的数字音频样本。
- 来源：GitHub
Awesome_Diarization
- 描述：关于说话者分割的论文、库、数据集和其他资源的精选列表。
- 来源：GitHub
Common Voice
- 描述：Mozilla发起的项目，用于训练机器理解人类语音，大小为12GB。
- 来源：Mozilla
CHIME
- 描述：包含真实、模拟和清洁语音记录的噪声语音识别挑战数据集。
- 来源：Internet Archive
CMU Wilderness
- 描述：包含多种口音的圣经朗诵，非商业用途。
- 来源：Festvox
CREMA-D
- 描述：包含7442个片段，来自91名演员的情感语音数据集。
- 来源：GitHub
DAPS Dataset
- 描述：包含20名说话者阅读公共领域书籍的片段。
- 来源：Internet Archive
Deep Clustering Dataset
- 描述：用于训练深度判别嵌入以解决鸡尾酒会问题。
- 来源：MERL
Emotional Voices Database
- 描述：包含5名演员表达不同情绪的语音数据。
- 来源：GitHub
Emotional Voice dataset - Nature
- 描述：包含来自5种文化的100名演员的2519个语音样本。
- 来源：Nature
Free Spoken Digit Dataset
- 描述：包含4名说话者发音的2000个数字音频样本。
- 来源：GitHub
Flickr Audio Caption
- 描述：包含40000个关于8000张自然图像的语音描述。
- 来源：MIT
ISOLET Data Set
- 描述：38.7GB的数据集，用于预测发音的字母名称。
- 来源：UCI
Librispeech
- 描述：约1000小时的16Khz英语朗读音频。
- 来源：OpenSLR
LJ Speech
- 描述：包含13100个短音频片段，来自单一说话者阅读非小说书籍。
- 来源：Keithito
Microsoft Scalable Noisy Speech Dataset
- 描述：可根据需求扩展的噪声语音数据集。
- 来源：GitHub
Multimodal EmotionLines Dataset (MELD)
- 描述：扩展自EmotionLines，包含音频和视觉模态数据。
- 来源：GitHub
Noisy Dataset
- 描述：清洁和噪声并行的语音数据库，设计用于48kHz的语音增强方法。
- 来源：DataShare
Parkinsons speech dataset
- 描述：包含20名帕金森病患者和20名健康个体的多种声音记录。
- 来源：UCI
Persian Consonant Vowel Combination (PCVC) Speech Dataset
- 描述：现代波斯语语音识别和说话者识别数据集。
- 来源：GitHub
Speech Accent Archive
- 描述：用于各种口音检测任务。
- 来源：Kaggle
Speech Commands Dataset
- 描述：包含65000个一秒长的30个短词的语音样本。
- 来源：Google AI Blog
Spoken Commands dataset
- 描述：用于语音活动检测算法和命令识别的大数据库。
- 来源：GitHub
Spoken Wikipeida Corpora
- 描述：38GB大小的音频和非音频格式的数据集。
- 来源：NATS
Tatoeba
- 描述：用于语言学习的句子、翻译和语音数据库。
- 来源：Tatoeba
Ted-LIUM
- 描述：从TED网站获取的音频讲座及其转录。
- 来源：OpenSLR
TIMIT dataset
- 描述：包含8种主要美国英语方言的630名说话者的宽带录音。
- 来源：LDC93S1
Voice Gender Detection
- 描述：使用VoxCeleb数据集进行语音性别检测的GitHub仓库。
- 来源：GitHub
VoxCeleb
- 描述：大规模说话者识别数据集，包含约100,000个语音片段。
- 来源：GitHub
VoxForge
- 描述：用于收集用于免费开源语音识别引擎的转录语音。
- 来源：VoxForge
Zero Resource Speech Challenge
- 描述：旨在构建一个从零开始学习未知语言的端到端口语对话系统。
- 来源：GitHub

音频事件和音乐数据集列表

AudioSet
- 描述：包含632种音频事件类别的2,084,320个10秒声音片段。
- 来源：Google Research
Bird audio detection challenge
- 描述：包含新的生物声学监测项目数据集，大小为5.4GB。
- 来源：QMUL
Environmental audio dataset
- 描述：用于环境音频研究的音频数据集。
- 来源：TUT
Free Music Archive
- 描述：用于音乐分析的数据集，大小为1000GB。
- 来源：GitHub
Freesound dataset
- 描述：包含多种声音事件的数据集。
- 来源：Kaggle
Karoldvl-ESC
- 描述：包含2000个环境音频记录的数据集，适合环境声音分类方法的基准测试。
- 来源：GitHub
Million Song Dataset
- 描述：包含一百万当代流行音乐曲目的音频特征和元数据。
- 来源：Columbia
Public domain sounds
- 描述：用于唤醒词检测和对象检测研究的各种声音。
- 来源：PDSounds
Urban Sound Dataset
- 描述：包含两个数据集和一个城市声音研究的分类法。
- 来源：UrbanSoundDataset

搜集汇总

数据集介绍

构建方式

voice_datasets数据集通过整合多个开源语音和音乐数据集构建而成，涵盖了从语音识别到音频事件检测的广泛领域。数据集的构建基于公开可用的资源，包括来自不同语言、口音和背景的语音样本，以及多样化的音频事件和音乐片段。每个子数据集均经过精心筛选，确保其适用于语音处理、情感分析、语音合成等任务。数据集的构建过程注重多样性和代表性，涵盖了从电话录音到公开演讲的多种语音场景。

特点

voice_datasets数据集的特点在于其广泛覆盖的语音和音频数据类型，涵盖了多种语言、口音和情感表达。数据集不仅包含高质量的语音样本，还提供了丰富的元数据，如语音的文本转录、情感标签和音频事件的分类信息。此外，数据集还包含来自不同文化和背景的语音样本，使其适用于跨文化语音研究和多语言语音处理任务。数据集的多样性和规模使其成为语音识别、情感分析和音频事件检测等领域的理想选择。

使用方法

voice_datasets数据集的使用方法灵活多样，适用于多种语音和音频处理任务。用户可以根据需求选择特定的子数据集，如语音识别任务可选择包含丰富转录的语音数据集，情感分析任务则可使用带有情感标签的语音样本。数据集提供了详细的元数据和标注信息，用户可以通过这些信息快速定位所需数据。此外，数据集支持多种格式的音频文件，便于直接应用于现有的语音处理框架和工具。用户还可以通过GitHub页面提供的链接访问更多资源，进一步扩展数据集的应用场景。

背景与挑战

背景概述

voice_datasets数据集由Jim Schwoebel于2019年在VOICE Summit上发布，旨在为语音和音乐研究领域提供一个全面的开源数据集集合。该数据集涵盖了多种语音和音频事件数据集，广泛应用于语音识别、情感分析、说话人识别等任务。其核心研究问题在于如何通过多样化的语音和音频数据，提升机器对语音的理解和处理能力。该数据集对语音计算领域的研究具有重要影响，尤其是在多语言、多情感、多环境下的语音处理任务中，为研究者提供了丰富的数据资源。

当前挑战

voice_datasets数据集面临的挑战主要体现在两个方面。首先，语音数据的多样性和复杂性使得模型在处理不同口音、语速、背景噪声等变量时表现不稳定，尤其是在多语言和跨文化场景下，语音识别的准确性受到极大挑战。其次，数据集的构建过程中，如何确保数据的质量、标注的准确性以及数据隐私保护是主要难题。此外，音频事件的多样性和复杂性也增加了数据采集和标注的难度，尤其是在环境音和音乐数据集中，如何准确捕捉和分类复杂的音频事件仍然是一个亟待解决的问题。

常用场景

经典使用场景

在语音识别和语音合成领域，voice_datasets数据集被广泛应用于模型训练和评估。通过提供多样化的语音样本，包括不同语言、口音和情感表达，该数据集为研究人员提供了丰富的实验材料。特别是在自动语音识别（ASR）和语音情感分析等任务中，voice_datasets的多样性和规模使其成为验证算法性能的理想选择。

实际应用

在实际应用中，voice_datasets被广泛用于智能语音助手、语音翻译系统和情感计算等领域。例如，基于该数据集训练的模型可以用于开发多语言语音助手，帮助用户在不同语言环境中进行无缝交流。此外，情感语音合成技术也被应用于虚拟客服和娱乐产业，提升了用户体验。

衍生相关工作

voice_datasets催生了许多经典的研究工作，如基于VoxCeleb的说话人识别系统和基于LibriSpeech的端到端语音识别模型。这些工作不仅在学术界取得了显著成果，还在工业界得到了广泛应用。例如，VoxCeleb数据集被用于开发高精度的说话人验证系统，而LibriSpeech则成为语音识别领域基准测试的标准数据集之一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集