voice_datasets

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/jim-schwoebel/voice_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个全面的开放源代码语音和音乐数据集列表，包含超过95个数据集。

A comprehensive list of open-source speech and music datasets, encompassing over 95 datasets.

创建时间：

2019-07-24

原始信息汇总

数据集概述

本数据集名为voice_datasets，是一个综合性的开源语音和音乐数据集列表。该数据集主要包含两大类音频数据集：语音数据集和音频事件/音乐数据集。

语音数据集

AESDD
- 描述：约500个由多样化的演员（超过5名演员）模拟各种情绪的语音片段。
- 链接：AESDD
ANAD
- 描述：1384个由多个说话者录制的语音，包含愤怒、快乐、惊讶三种情绪。
- 链接：ANAD
Arabic Speech Corpus
- 描述：包含超过3.7小时的标准现代阿拉伯语语音，具有音素和正字法转录，以及与录音语音在音素级别的对齐。
- 链接：Arabic Speech Corpus
ASR datasets
- 描述：公开可用的音频数据列表，任何人都可以下载用于自动语音识别或其他语音活动。
- 链接：ASR datasets
AudioMNIST
- 描述：包含30000个由60个不同说话者说出的数字（0-9）的音频样本。
- 链接：AudioMNIST
Awesome_Diarization
- 描述：精选的说话者分割论文、库、数据集和其他资源列表。
- 链接：Awesome_Diarization
BAVED
- 描述：1935个由61个说话者（45名男性和16名女性）录制的语音。
- 链接：BAVED
CaFE
- 描述：6个不同的句子由12个说话者（6名女性+6名男性）朗读。
- 链接：CaFE
Common Voice
- 描述：Mozilla的倡议，帮助机器学习真实的人如何说话。大小为12GB，基于来自多个公共领域来源的语音文本。
- 链接：Common Voice
CHIME
- 描述：一个嘈杂的语音识别挑战数据集（约4GB大小），包含真实模拟和清洁语音录音。
- 链接：CHIME
Coswara
- 描述：包含健康和COVID-19阳性个体的呼吸声音，即咳嗽、呼吸和语音的数据库。
- 链接：Coswara
CMU-MOSEI
- 描述：65小时的视频，超过1000个说话者和250个主题；6种情绪（幸福、悲伤、愤怒、恐惧、厌恶、惊讶）+李克特量表。
- 链接：CMU-MOSEI
CMU-MOSI
- 描述：2199个观点语音片段，带有注释的情感；情感注释从非常负面到非常正面分为七个李克特步骤。
- 链接：CMU-MOSI
CMU Wilderness
- 描述：（非商业用途）- 不可用，但包含多种口音朗诵圣经段落的优秀语音数据集。
- 链接：CMU Wilderness
CREMA-D
- 描述：CREMA-D是一个包含7,442个原始片段的数据集，来自91个演员。这些片段来自48名男性和43名女性演员，年龄在20至74岁之间，来自多种种族和民族。
- 链接：CREMA-D
DAPS Dataset
- 描述：DAPS包含20个说话者（10名女性和10名男性），每人阅读5个公共领域书籍的摘录（每个说话者约14分钟的数据）。
- 链接：DAPS Dataset
Deep Clustering Dataset
- 描述：用于训练深度判别嵌入以解决鸡尾酒会问题。
- 链接：Deep Clustering Dataset
DEMoS
- 描述：9365个情感和332个中性样本，由68个母语说话者（23名女性，45名男性）产生；7/6种情绪：愤怒、悲伤、快乐、恐惧、惊讶、厌恶，以及次要情绪内疚。
- 链接：DEMoS
DES
- 描述：4个说话者（2名男性和2名女性）；5种情绪：中性、惊讶、快乐、悲伤和愤怒。
- 链接：DES
DIPCO
- 描述：晚餐派对语料库 - 参与者通过单通道近讲麦克风和五个远场7麦克风阵列设备记录，这些设备位于录音室的不同位置。数据集包含音频录音和人类标记的转录，总共10个会话，持续时间在15至45分钟之间。
- 链接：DIPCO
EEKK
- 描述：26个文本段落由10个说话者朗读；4种主要情绪：喜悦、悲伤、愤怒和中性。
- 链接：EEKK
Emo-DB
- 描述：800个由10个演员（5名男性和5名女性）说出的录音；7种情绪：愤怒、中性、恐惧、无聊、快乐、悲伤、厌恶。
- 链接：Emo-DB
EmoFilm
- 描述：1115个从各种电影中提取的音频实例句子。
- 链接：EmoFilm
EmoSynth
- 描述：144个音频文件，由40个听众标记；情感（无语音）根据愉悦度和唤醒度定义。
- 链接：EmoSynth
Emotional Voices Database
- 描述：包含5个声音演员表达的各种情绪（愉快、愤怒、厌恶、中性、困倦）。
- 链接：Emotional Voices Database
Emotional Voice dataset - Nature
- 描述：2,519个语音样本，由100个演员从5种文化中产生。使用大规模统计推断方法，我们发现韵律可以传达至少12种不同的情感，这些情感在2种文化中得到保留。
- 链接：Emotional Voice dataset - Nature
EmotionTTS
- 描述：由多样化的说话者录制的语音及其转录，4种情绪：一般、喜悦、愤怒和悲伤。
- 链接：EmotionTTS
Emov-DB
- 描述：由4个说话者（2名男性和2名女性）录制的语音；情感风格包括中性、困倦、愤怒、厌恶和愉快。
- 链接：Emov-DB
EMOVO
- 描述：6个演员扮演14个句子；6种情绪：厌恶、恐惧、愤怒、喜悦、惊讶、悲伤。
- 链接：EMOVO
eNTERFACE05
- 描述：由42个来自14个不同国籍的受试者录制的视频；6种情绪：愤怒、恐惧、惊讶、幸福、悲伤和厌恶。
- 链接：eNTERFACE05
Free Spoken Digit Dataset
- 描述：4个说话者，2000个录音（每个数字每个说话者50个），英语发音。
- 链接：Free Spoken Digit Dataset
Flickr Audio Caption
- 描述：40,000个对8,000个自然图像的语音描述，大小为4.2 GB。
- 链接：Flickr Audio Caption
GEMEP corpus
- 描述：10个演员描绘10种状态；12种情绪：娱乐、焦虑、冷怒（刺激）、绝望、热怒（愤怒）、恐惧（恐慌）、兴趣、喜悦（兴高采烈）、愉悦（感官）、骄傲、解脱和悲伤。此外，还有5种额外情绪：钦佩、轻蔑、厌恶、惊讶和温柔。
- 链接：GEMEP corpus
IEMOCAP
- 描述：12小时的视听数据，由10个演员提供；5种情绪：幸福、愤怒、悲伤、挫折和中性。
- 链接：IEMOCAP
ISOLET Data Set
- 描述：这个38.7 GB的数据集帮助预测哪个字母名称被说出——一个简单的分类任务。
- 链接：ISOLET Data Set
JL corpus
- 描述：2400个由4个演员（2名男性和2名女性）录制的语音，240个句子；5种主要情绪：愤怒、悲伤、中性、快乐、兴奋。5种次要情绪：焦虑、道歉、沉思、担忧、热情。
- 链接：JL corpus
Keio-ESD
- 描述：一组由日本男性说话者带有语音情绪的人类语音；47种情绪，包括愤怒、快乐、厌恶、降级、有趣、担忧、温柔、解脱、愤慨、羞耻等。
- 链接：Keio-ESD
LEGO Corpus
- 描述：347个对话，9,083个系统-用户交换；情绪分类为垃圾、非愤怒、轻微愤怒和非常愤怒。
- 链接：LEGO Corpus
Libriadapt
- 描述：主要设计用于促进ASR模型的领域适应研究，包含以下三种类型的数据域变化。
- 链接：Libriadapt
Libri-CSS
- 描述：从LibriSpeech派生，通过连接语料库语音片段来模拟对话，并使用远场麦克风捕捉音频重放。
- 链接：Libri-CSS
LibriMix
- 描述：LibriMix是一个用于嘈杂环境中源分离的开源数据集。它是从LibriSpeech信号（清洁子集）和WHAM噪声派生的。它提供了一个免费的WHAM数据集替代品，并补充了它。它还将启用跨数据集实验。
- 链接：LibriMix
Librispeech
- 描述：LibriSpeech是一个大约1000小时的16Khz英语朗读语音语料库，源自LibriVox项目的有声读物。
- 链接：Librispeech
LJ Speech
- 描述：这是一个公共领域语音数据集，包含13,100个由单个说话者朗读的短音频片段，来自7本非小说书籍。每个片段都提供了转录。片段长度从1到10秒不等，总长度约为24小时。
- 链接：LJ Speech
Microsoft Scalable Noisy Speech Dataset
- 描述：Microsoft Scalable Noisy Speech Dataset（MS-SNSD）是一个嘈杂的语音数据集，可以根据所需的说话者数量、噪声类型和语音噪声比（SNR）水平扩展到任意大小。
- 链接：Microsoft Scalable Noisy Speech Dataset
MSP-IMPROV
- 描述：20个句子由12个演员朗读；4种情绪：愤怒、悲伤、快乐、中性、其他，无共识。
- 链接：MSP-IMPROV
MSP Podcast Corpus
- 描述：100小时由100多个说话者提供 - 使用属性描述符（激活、支配和效价）和类别标签（愤怒、幸福、悲伤、厌恶、惊讶、恐惧、轻蔑、中性和其他）注释情感标签。
- 链接：MSP Podcast Corpus
Multimodal EmotionLines Dataset (MELD)
- 描述：Multimodal EmotionLines Dataset (MELD)是通过增强和扩展EmotionLines数据集创建的。MELD包含与EmotionLines相同的对话实例，但它还包括文本之外的音频和视觉模态。MELD包含来自Friends TV系列的超过1400个对话和13000个语音片段。每个语音片段都标记有—愤怒、厌恶、悲伤、快乐、中性、惊讶和恐惧。
- 链接：Multimodal EmotionLines Dataset (MELD)
MuSe-CAR
- 描述：40小时，6,000多个由70多个英语说话者（15 GB）提供的语音片段。
- 链接：MuSe-CAR
NISQA Speech Quality Corpus
- 描述：包含14k语音样本，具有模拟（编解码器、数据包丢失、背景噪

搜集汇总

数据集介绍

构建方式

voice_datasets 数据集的构建方式主要通过收集和整理多种开源语音和音乐数据集。这些数据集涵盖了从情感识别到语音合成的广泛应用领域。构建过程中，数据集的来源包括学术研究项目、公共数据库以及开源社区的贡献。每个子数据集都经过详细的标注和分类，确保数据的多样性和质量。此外，数据集的构建还考虑了不同语言、文化和情感状态的覆盖，以支持跨文化和多语言的研究需求。

使用方法

使用 voice_datasets 数据集时，研究者可以根据具体的研究需求选择合适的子数据集。数据集提供了详细的文档和标注信息，便于用户理解和处理数据。用户可以通过下载整个数据集或选择特定的子集进行实验。数据集支持多种编程语言和工具，如Python、MATLAB等，方便用户进行数据处理和模型训练。此外，数据集还提供了示例代码和教程，帮助用户快速上手并进行有效的实验设计。

背景与挑战

背景概述

voice_datasets 数据集是一个综合性的开源语音和音乐数据集列表，由主要研究人员在2019年的VOICE Summit上发布。该数据集汇集了多种语音和音频事件/音乐数据集，涵盖了从语音识别到情感分析等多个领域。其核心研究问题在于提供一个全面的资源库，以支持语音和音频处理技术的研究与开发。该数据集的发布对语音识别、情感分析、语音合成等相关领域产生了深远影响，为研究人员提供了丰富的实验数据和基准测试资源。

当前挑战

voice_datasets 数据集在构建过程中面临了多重挑战。首先，数据集的多样性带来了数据标注和一致性问题，不同数据集的情感标签和语音特征存在差异，增加了数据整合的复杂性。其次，数据集的规模庞大，涉及多个语言和文化背景，如何确保数据的质量和代表性是一个重要挑战。此外，数据集的更新和维护也是一个持续的挑战，随着技术的进步和新数据集的涌现，如何保持数据集的前沿性和实用性需要不断投入资源和精力。

常用场景

经典使用场景

voice_datasets数据集在语音处理领域中被广泛应用于多种经典场景。例如，语音情感识别（SER）是一个重要的应用领域，通过分析语音数据中的情感特征，如愤怒、快乐、悲伤等，来识别说话者的情感状态。此外，语音性别检测也是一个常见的应用，通过分析语音特征来区分男性和女性的声音。另一个经典场景是语音合成（TTS），利用这些数据集训练模型，生成自然流畅的语音。

解决学术问题

voice_datasets数据集解决了语音处理领域中的多个关键学术问题。首先，它为语音情感识别提供了丰富的数据资源，有助于研究如何从语音信号中准确提取和分类情感状态。其次，该数据集在语音性别检测方面也具有重要意义，帮助学术界探索和优化性别分类算法。此外，数据集中的多语言和多方言数据为跨语言和跨方言的语音识别研究提供了宝贵的资源，推动了语音处理技术的全球化发展。

实际应用

在实际应用中，voice_datasets数据集被广泛用于开发和优化各种语音相关的应用。例如，在客户服务领域，通过语音情感识别技术，可以实时分析客户的情绪状态，从而提供更加个性化和高效的服务。在安全监控领域，语音性别检测技术可以用于快速识别和区分不同性别的声音，提高监控系统的准确性和响应速度。此外，语音合成技术的应用也越来越广泛，如在智能助手、语音导航和有声读物等领域，为用户提供更加自然和便捷的交互体验。

数据集最近研究