Awesome Speech Dataset
收藏github2025-03-13 更新2025-03-14 收录
下载链接:
https://github.com/bunyaminergen/awesome-speech-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Awesome Speech Dataset 是一个包含多个高质量语音数据集的集合,涵盖了对话、学术、政治等多个领域。这些数据集广泛用于自动语音识别(ASR)、说话人识别、情感识别等语音处理任务。
Awesome Speech Dataset is a collection of numerous high-quality speech datasets spanning multiple domains such as conversational, academic, political and others. These datasets are widely utilized for speech processing tasks including automatic speech recognition (ASR), speaker recognition, emotion recognition and more.
创建时间:
2025-03-10
原始信息汇总
Awesome Speech Dataset
以下是关于Awesome Speech Dataset的概述:
数据集简介
- 数据集名称:Awesome Speech Dataset
- 数据集类型:语音数据集汇总
- 应用领域:自动语音识别(ASR)、说话人识别与验证、语音情感识别(SER)、文本到语音(TTS)、多语种语音语料库、话者分离、源分离、健康与临床语音数据集、音频事件与音乐、应答机检测(AMD)、音频分类等
数据集列表
自动语音识别 (ASR)
| 数据集名称 | 下载链接 | 描述 | 开源情况 |
|---|---|---|---|
| CHiME Speech | CHiME Datasets | 针对嘈杂环境中的语音(街道、咖啡馆、家庭)的系列数据集。 | 是 |
| Spotify Podcast Dataset | Podcast Dataset | 超过100,000个播客剧集,包含100,000+小时的语音和详尽的转录。 | 是 |
| SPGISpeech (Kensho) | SPGISpeech (Kensho) Data | 5,000小时的专业转录金融音频,适用于金融领域的ASR研究。 | 是 |
| AudioMNIST | AudioMNIST | 30,000个音频样本,包含60位不同说话者的spoken digits (0–9)。 | 是 |
| CMU Wilderness | CMU Wilderness | 多种口音的说话者朗读圣经段落的语音数据集。 | 是 |
| DAPS Dataset | DAPS Dataset | 20位说话者朗读公共领域书籍的5个摘录(每位说话者约14分钟)。 | 是 |
| DIPCO | DIPCO | 晚宴聚会语音记录,包含10个会话的近距离和远场数组。 | 是 |
| Free Spoken Digit Dataset | Free Spoken Digit Dataset | 4位说话者的spoken digits (0–9)的2,000个录音。 | 是 |
| Flickr Audio Caption | Flickr Audio Caption | 40,000个自然图像的spoken captions (~4.2 GB)。 | 是 |
| ISOLET Data Set | ISOLET Data Set | 用于从spoken audio预测letter-names的38.7 GB数据集。 | 是 |
| Libriadapt | Libriadapt | 促进ASR模型的领域自适应研究,包含三种领域转移类型。 | 是 |
| Libri-CSS | Libri-CSS | 由LibriSpeech拼接而成的utterances,用于模拟会话式远场重放。 | 是 |
| Microsoft Scalable Noisy Speech Dataset | MS-SNSD | 可扩展到任意大小的带噪声语音数据集,包含不同的说话者、噪声类型和SNR级别。 | 是 |
| MSP Podcast Corpus | MSP Podcast Corpus | 100小时来自100+说话者的播客语音,带有情感标签和属性描述符。 | 是 |
| Persian Consonant Vowel Combination (PCVC) Dataset | PCVC | 现代波斯语音语料库,包含辅音-元音组合(每位说话者138个样本)。 | 是 |
| sample_voice_data | sample_voice_data | 每个类别(男性和女性)52个音频文件用于测试。 | 是 |
| Speech Accent Archive | Speech Accent Archive | 用于各种口音检测任务的语音数据集。 | 是 |
| Speech Commands Dataset | Speech Commands Dataset | 65,000个一秒钟的utterances,包含30个简短词汇的语音。 | 是 |
| Spoken Commands dataset | Spoken Commands dataset | 用于语音活动检测和音节识别的大型数据库。 | 是 |
| Spoken Wikipedia Corpora | Spoken Wikipedia Corpora | 基于Wikipedia文章的38 GB音频和非音频格式数据集。 | 是 |
| Tatoeba | Tatoeba | 大型数据库,包含句子、翻译和spoken audio,用于语言学习。 | 是 |
| TIMIT dataset | TIMIT dataset | 630位说话者的宽带录音,朗读语音丰富的句子,带有时序转录。 | 否 |
| Zero Resource Speech Challenge | Zero Resource Speech Challenge | 从零开始构建端到端的spoken dialogue system的挑战。 | 是 |
说话人识别 & 验证
| 数据集名称 | 下载链接 | 描述 | 开源情况 |
|---|---|---|---|
| VoxCeleb1 | VoxCeleb1 | 1,251位说话者的140k utterances,来自名人YouTube采访。 | 是 |
| VoxCeleb2 | VoxCeleb2 | 6,112位说话者的超过1百万个utterances,用于最先进的说话人识别研究。 | 是 |
| Voice Gender Detection | Voice Gender Detection | 使用VoxCeleb数据集进行性别检测的GitHub仓库。 | 是 |
语音情感识别 (SER)
| 数据集名称 | 下载链接 | 描述 | 开源情况 |
|---|---|---|---|
| IEMOCAP | USC IEMOCAP | 10位演员的约12小时acted audiovisual对话,包含9种情感类别。 | 否 |
| RAVDESS | Zenodo RAVDESS | 24位专业演员的7,356个情感语音和歌曲片段,涵盖8种情感。 | 是 |
| CREMA-D | CREMA-D GitHub | 91位演员的7,442个音频-视觉片段,表演12句句子,包含6种情感。 | 是 |
| AESDD | AESDD | 约500个不同演员模拟的各种情感的utterances。 | 是 |
| ANAD | ANAD | 多个说话者的1,384个录音,包含3种情感(愤怒、快乐、惊讶)。 | 是 |
| BAVED | BAVED | 61位说话者的1,935个录音,聚焦于语音情感。 | 是 |
| CaFE | CaFE | 12位说话者的6种不同句子,用于情感识别任务。 | 是 |
| CMU-MOSEI | CMU-MOSEI | 65小时的注解视频和音频数据,涵盖6种情感和Likert量表评分。 | 是 |
| CMU-MOSI | CMU-MOSI | 2,199个意见utterances,带有七点情感量表注解。 | 是 |
| DEMoS | DEMoS | 68位母语说话者的9,365个情感样本和332个中性样本。 | 是 |
| DES | DES | 4位说话者表达5种情感(中性、惊讶、快乐、悲伤、愤怒)的录音。 | 是 |
| EKKK | EEKK | 10位说话者的26个段落,朗读4种情感(喜悦、悲伤、愤怒、中性)。 | 是 |
| Emo-DB | Emo-DB | 10位演员的800个录音,涵盖7种情感。 | 是 |
| EmoFilm | EmoFilm | 1,115个音频实例(从电影中提取的句子),包含情感内容。 | 是 |
| EmoSynth | EmoSynth | 144个音频文件,由40位听众在valence和arousal方面进行标注。 | 是 |
| Emotional Voices Database | Emotional Voices Database | 5位voice actors的录音,涵盖各种情感。 | 是 |
| Emotional Voice dataset - Nature | Emotional Voice dataset - Nature | 100位演员的2,519个语音样本,涵盖至少12种不同情感。 | 是 |
| EmotionTTS | EmotionTTS | 多样化说话者的录音,带有情感nuance的转录。 | 是 |
| Emov-DB | Emov-DB | 4位说话者的录音,包含中性、困倦、愤怒、厌恶和 amusement 情感。 | 是 |
| EMOVO | EMOVO | 6位演员朗读14个句子,涵盖6种情感。 | 是 |
| eNTERFACE05 | eNTERFACE05 | 42位来自14个国家的主题的video。 | 是 |
| GEMEP corpus | GEMEP corpus | 10位演员扮演10种状态,涵盖12种主要和5种额外情感。 | 是 |
| JL corpus | JL corpus | 4位演员朗读240个句子,包含5种主要和5种次要情感。 | 是 |
| Keio-ESD | Keio-ESD | 日本男性说话者的数据集,涵盖47种不同情感。 | 是 |
| LEGO Corpus | LEGO Corpus | 347个对话(9,083个exchange)带有情感分类。 | 是 |
| MSP-IMPROV | MSP-IMPROV | 12位演员朗读20个句子,涵盖4种情感加一个“其他”类别。 | 是 |
| Multimodal EmotionLines Dataset (MELD) | MELD | 超过1,400个对话和13,000个utterances,来自电视剧《Friends》,标注有7种情感。 | 是 |
搜集汇总
数据集介绍

构建方式
Awesome Speech Dataset 是一个综合性的语音数据集,涵盖了多种领域如对话、学术、政治等的高质量语音数据。该数据集的构建主要通过整合多个开源的语音子数据集,这些子数据集来源广泛,包括CHiME、Spotify Podcast、SPGISpeech等,每个子数据集都有其特定的应用场景和特点。这些数据集经过精心筛选和整合,形成了涵盖自动语音识别、说话人识别、情感识别等多种语音处理应用的综合数据集。
特点
该数据集的特点在于其多样性和广泛的应用性。它包含了各种环境下的语音数据,如嘈杂的街道、咖啡馆和家庭环境,适合于鲁棒性和远场语音识别研究。此外,数据集还提供了大量的转录文本,有助于各种语音处理任务的训练和评估。数据集的开源属性也使得研究者和开发者能够自由使用和扩展这些数据。
使用方法
使用该数据集时,用户可以根据具体的研究需求选择相应的子数据集。数据集的使用包括下载、预处理、特征提取和模型训练等步骤。用户需要确保遵守每个子数据集的使用条款,尤其是在商业和研究中的应用。此外,部分数据集提供了详细的标注信息,如情感标签和属性描述,这些信息对于训练复杂的语音处理模型至关重要。
背景与挑战
背景概述
Awesome Speech Dataset 是一个综合性语音数据集,涵盖了会话、学术、政治等多个领域的丰富和高品质语音数据。该数据集的主要研究人员和机构不详,但可以从其广泛的应用领域推测,该数据集自创建以来对自动语音识别(ASR)、说话人识别、情感识别等语音处理应用产生了重要影响。数据集包含了多样化的语音样本,旨在为不同的语音处理任务提供支持,其创建时间未明确记录,但根据涉及的技术和领域发展,可以推断其应是在近年来构建的。
当前挑战
在研究领域问题方面,Awesome Speech Dataset 面临的挑战包括如何提高语音识别的准确性,尤其是在噪声环境下的识别性能;说话人识别和验证中的个体差异问题;以及情感识别的细微差别处理。在构建过程中,数据集的挑战可能涉及语音数据的多样性和质量保证、跨领域和跨文化的适应性、数据标注的一致性和准确性,以及大规模数据处理的技术难题。
常用场景
经典使用场景
Awesome Speech Dataset 集成了多样化的语音数据,这些数据覆盖了会话、学术、政治等多个领域,其经典使用场景主要集中于自动语音识别(ASR)、说话人识别与验证、语音情感识别等研究领域。该数据集通过提供不同环境下的语音样本,如噪声环境中的语音识别,为研究者们提供了丰富的实验材料,以促进语音处理技术的进步。
解决学术问题
该数据集解决了学术研究中关于语音识别准确度、说话人识别的鲁棒性以及语音情感识别的精细化等关键问题。通过这些高质量的数据,研究者能够训练出更加精确的模型,以应对现实世界中的复杂语音信号,推动了相关领域的学术发展和技术突破。
衍生相关工作
基于该数据集,已经衍生出了一系列相关工作,包括但不限于针对特定领域如金融、医疗的语音识别研究,以及跨语种的语音情感识别和说话人验证技术的开发,这些工作进一步扩展了语音处理技术的应用边界和研究深度。
以上内容由遇见数据集搜集并总结生成



