Awesome Speech Dataset

github2025-03-13 更新2025-03-14 收录

下载链接：

https://github.com/bunyaminergen/awesome-speech-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Awesome Speech Dataset 是一个包含多个高质量语音数据集的集合，涵盖了对话、学术、政治等多个领域。这些数据集广泛用于自动语音识别（ASR）、说话人识别、情感识别等语音处理任务。

Awesome Speech Dataset is a collection of numerous high-quality speech datasets spanning multiple domains such as conversational, academic, political and others. These datasets are widely utilized for speech processing tasks including automatic speech recognition (ASR), speaker recognition, emotion recognition and more.

创建时间：

2025-03-10

原始信息汇总

Awesome Speech Dataset

以下是关于Awesome Speech Dataset的概述：

数据集简介

数据集名称：Awesome Speech Dataset
数据集类型：语音数据集汇总
应用领域：自动语音识别（ASR）、说话人识别与验证、语音情感识别（SER）、文本到语音（TTS）、多语种语音语料库、话者分离、源分离、健康与临床语音数据集、音频事件与音乐、应答机检测（AMD）、音频分类等

数据集列表

自动语音识别 (ASR)

数据集名称	下载链接	描述	开源情况
CHiME Speech	CHiME Datasets	针对嘈杂环境中的语音（街道、咖啡馆、家庭）的系列数据集。	是
Spotify Podcast Dataset	Podcast Dataset	超过100,000个播客剧集，包含100,000+小时的语音和详尽的转录。	是
SPGISpeech (Kensho)	SPGISpeech (Kensho) Data	5,000小时的专业转录金融音频，适用于金融领域的ASR研究。	是
AudioMNIST	AudioMNIST	30,000个音频样本，包含60位不同说话者的spoken digits (0–9)。	是
CMU Wilderness	CMU Wilderness	多种口音的说话者朗读圣经段落的语音数据集。	是
DAPS Dataset	DAPS Dataset	20位说话者朗读公共领域书籍的5个摘录（每位说话者约14分钟）。	是
DIPCO	DIPCO	晚宴聚会语音记录，包含10个会话的近距离和远场数组。	是
Free Spoken Digit Dataset	Free Spoken Digit Dataset	4位说话者的spoken digits (0–9)的2,000个录音。	是
Flickr Audio Caption	Flickr Audio Caption	40,000个自然图像的spoken captions (~4.2 GB)。	是
ISOLET Data Set	ISOLET Data Set	用于从spoken audio预测letter-names的38.7 GB数据集。	是
Libriadapt	Libriadapt	促进ASR模型的领域自适应研究，包含三种领域转移类型。	是
Libri-CSS	Libri-CSS	由LibriSpeech拼接而成的utterances，用于模拟会话式远场重放。	是
Microsoft Scalable Noisy Speech Dataset	MS-SNSD	可扩展到任意大小的带噪声语音数据集，包含不同的说话者、噪声类型和SNR级别。	是
MSP Podcast Corpus	MSP Podcast Corpus	100小时来自100+说话者的播客语音，带有情感标签和属性描述符。	是
Persian Consonant Vowel Combination (PCVC) Dataset	PCVC	现代波斯语音语料库，包含辅音-元音组合（每位说话者138个样本）。	是
sample_voice_data	sample_voice_data	每个类别（男性和女性）52个音频文件用于测试。	是
Speech Accent Archive	Speech Accent Archive	用于各种口音检测任务的语音数据集。	是
Speech Commands Dataset	Speech Commands Dataset	65,000个一秒钟的utterances，包含30个简短词汇的语音。	是
Spoken Commands dataset	Spoken Commands dataset	用于语音活动检测和音节识别的大型数据库。	是
Spoken Wikipedia Corpora	Spoken Wikipedia Corpora	基于Wikipedia文章的38 GB音频和非音频格式数据集。	是
Tatoeba	Tatoeba	大型数据库，包含句子、翻译和spoken audio，用于语言学习。	是
TIMIT dataset	TIMIT dataset	630位说话者的宽带录音，朗读语音丰富的句子，带有时序转录。	否
Zero Resource Speech Challenge	Zero Resource Speech Challenge	从零开始构建端到端的spoken dialogue system的挑战。	是

说话人识别 & 验证

数据集名称	下载链接	描述	开源情况
VoxCeleb1	VoxCeleb1	1,251位说话者的140k utterances，来自名人YouTube采访。	是
VoxCeleb2	VoxCeleb2	6,112位说话者的超过1百万个utterances，用于最先进的说话人识别研究。	是
Voice Gender Detection	Voice Gender Detection	使用VoxCeleb数据集进行性别检测的GitHub仓库。	是

语音情感识别 (SER)

数据集名称	下载链接	描述	开源情况
IEMOCAP	USC IEMOCAP	10位演员的约12小时acted audiovisual对话，包含9种情感类别。	否
RAVDESS	Zenodo RAVDESS	24位专业演员的7,356个情感语音和歌曲片段，涵盖8种情感。	是
CREMA-D	CREMA-D GitHub	91位演员的7,442个音频-视觉片段，表演12句句子，包含6种情感。	是
AESDD	AESDD	约500个不同演员模拟的各种情感的utterances。	是
ANAD	ANAD	多个说话者的1,384个录音，包含3种情感（愤怒、快乐、惊讶）。	是
BAVED	BAVED	61位说话者的1,935个录音，聚焦于语音情感。	是
CaFE	CaFE	12位说话者的6种不同句子，用于情感识别任务。	是
CMU-MOSEI	CMU-MOSEI	65小时的注解视频和音频数据，涵盖6种情感和Likert量表评分。	是
CMU-MOSI	CMU-MOSI	2,199个意见utterances，带有七点情感量表注解。	是
DEMoS	DEMoS	68位母语说话者的9,365个情感样本和332个中性样本。	是
DES	DES	4位说话者表达5种情感（中性、惊讶、快乐、悲伤、愤怒）的录音。	是
EKKK	EEKK	10位说话者的26个段落，朗读4种情感（喜悦、悲伤、愤怒、中性）。	是
Emo-DB	Emo-DB	10位演员的800个录音，涵盖7种情感。	是
EmoFilm	EmoFilm	1,115个音频实例（从电影中提取的句子），包含情感内容。	是
EmoSynth	EmoSynth	144个音频文件，由40位听众在valence和arousal方面进行标注。	是
Emotional Voices Database	Emotional Voices Database	5位voice actors的录音，涵盖各种情感。	是
Emotional Voice dataset - Nature	Emotional Voice dataset - Nature	100位演员的2,519个语音样本，涵盖至少12种不同情感。	是
EmotionTTS	EmotionTTS	多样化说话者的录音，带有情感nuance的转录。	是
Emov-DB	Emov-DB	4位说话者的录音，包含中性、困倦、愤怒、厌恶和 amusement 情感。	是
EMOVO	EMOVO	6位演员朗读14个句子，涵盖6种情感。	是
eNTERFACE05	eNTERFACE05	42位来自14个国家的主题的video。	是
GEMEP corpus	GEMEP corpus	10位演员扮演10种状态，涵盖12种主要和5种额外情感。	是
JL corpus	JL corpus	4位演员朗读240个句子，包含5种主要和5种次要情感。	是
Keio-ESD	Keio-ESD	日本男性说话者的数据集，涵盖47种不同情感。	是
LEGO Corpus	LEGO Corpus	347个对话（9,083个exchange）带有情感分类。	是
MSP-IMPROV	MSP-IMPROV	12位演员朗读20个句子，涵盖4种情感加一个“其他”类别。	是
Multimodal EmotionLines Dataset (MELD)	MELD	超过1,400个对话和13,000个utterances，来自电视剧《Friends》，标注有7种情感。	是

搜集汇总

数据集介绍

构建方式

Awesome Speech Dataset 是一个综合性的语音数据集，涵盖了多种领域如对话、学术、政治等的高质量语音数据。该数据集的构建主要通过整合多个开源的语音子数据集，这些子数据集来源广泛，包括CHiME、Spotify Podcast、SPGISpeech等，每个子数据集都有其特定的应用场景和特点。这些数据集经过精心筛选和整合，形成了涵盖自动语音识别、说话人识别、情感识别等多种语音处理应用的综合数据集。

特点

该数据集的特点在于其多样性和广泛的应用性。它包含了各种环境下的语音数据，如嘈杂的街道、咖啡馆和家庭环境，适合于鲁棒性和远场语音识别研究。此外，数据集还提供了大量的转录文本，有助于各种语音处理任务的训练和评估。数据集的开源属性也使得研究者和开发者能够自由使用和扩展这些数据。

使用方法

使用该数据集时，用户可以根据具体的研究需求选择相应的子数据集。数据集的使用包括下载、预处理、特征提取和模型训练等步骤。用户需要确保遵守每个子数据集的使用条款，尤其是在商业和研究中的应用。此外，部分数据集提供了详细的标注信息，如情感标签和属性描述，这些信息对于训练复杂的语音处理模型至关重要。

背景与挑战

背景概述

Awesome Speech Dataset 是一个综合性语音数据集，涵盖了会话、学术、政治等多个领域的丰富和高品质语音数据。该数据集的主要研究人员和机构不详，但可以从其广泛的应用领域推测，该数据集自创建以来对自动语音识别（ASR）、说话人识别、情感识别等语音处理应用产生了重要影响。数据集包含了多样化的语音样本，旨在为不同的语音处理任务提供支持，其创建时间未明确记录，但根据涉及的技术和领域发展，可以推断其应是在近年来构建的。

当前挑战

在研究领域问题方面，Awesome Speech Dataset 面临的挑战包括如何提高语音识别的准确性，尤其是在噪声环境下的识别性能；说话人识别和验证中的个体差异问题；以及情感识别的细微差别处理。在构建过程中，数据集的挑战可能涉及语音数据的多样性和质量保证、跨领域和跨文化的适应性、数据标注的一致性和准确性，以及大规模数据处理的技术难题。

常用场景

经典使用场景

Awesome Speech Dataset 集成了多样化的语音数据，这些数据覆盖了会话、学术、政治等多个领域，其经典使用场景主要集中于自动语音识别（ASR）、说话人识别与验证、语音情感识别等研究领域。该数据集通过提供不同环境下的语音样本，如噪声环境中的语音识别，为研究者们提供了丰富的实验材料，以促进语音处理技术的进步。

解决学术问题

该数据集解决了学术研究中关于语音识别准确度、说话人识别的鲁棒性以及语音情感识别的精细化等关键问题。通过这些高质量的数据，研究者能够训练出更加精确的模型，以应对现实世界中的复杂语音信号，推动了相关领域的学术发展和技术突破。

衍生相关工作

基于该数据集，已经衍生出了一系列相关工作，包括但不限于针对特定领域如金融、医疗的语音识别研究，以及跨语种的语音情感识别和说话人验证技术的开发，这些工作进一步扩展了语音处理技术的应用边界和研究深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集