voice_datasets
收藏数据集概述
音频数据集分类
- 语音数据集
- 音频事件/音乐数据集
语音数据集列表
-
2000 HUB5 English
- 描述:专注于电话中的对话语音转录任务,探索和开发新的语音识别技术。
- 来源:LDC2002T43
-
Arabic Speech Corpus
- 描述:现代标准阿拉伯语语音合成数据集,包含超过3.7小时的语音数据。
- 来源:ArabicSpeechCorpus
-
ASR datasets
- 描述:公开可用的音频数据列表,适用于自动语音识别等任务。
- 来源:GitHub
-
AudioMNIST
- 描述:包含30000个不同说话者发音的数字音频样本。
- 来源:GitHub
-
Awesome_Diarization
- 描述:关于说话者分割的论文、库、数据集和其他资源的精选列表。
- 来源:GitHub
-
Common Voice
- 描述:Mozilla发起的项目,用于训练机器理解人类语音,大小为12GB。
- 来源:Mozilla
-
CHIME
- 描述:包含真实、模拟和清洁语音记录的噪声语音识别挑战数据集。
- 来源:Internet Archive
-
CMU Wilderness
- 描述:包含多种口音的圣经朗诵,非商业用途。
- 来源:Festvox
-
CREMA-D
- 描述:包含7442个片段,来自91名演员的情感语音数据集。
- 来源:GitHub
-
DAPS Dataset
- 描述:包含20名说话者阅读公共领域书籍的片段。
- 来源:Internet Archive
-
Deep Clustering Dataset
- 描述:用于训练深度判别嵌入以解决鸡尾酒会问题。
- 来源:MERL
-
Emotional Voices Database
- 描述:包含5名演员表达不同情绪的语音数据。
- 来源:GitHub
-
Emotional Voice dataset - Nature
- 描述:包含来自5种文化的100名演员的2519个语音样本。
- 来源:Nature
-
Free Spoken Digit Dataset
- 描述:包含4名说话者发音的2000个数字音频样本。
- 来源:GitHub
-
Flickr Audio Caption
- 描述:包含40000个关于8000张自然图像的语音描述。
- 来源:MIT
-
ISOLET Data Set
- 描述:38.7GB的数据集,用于预测发音的字母名称。
- 来源:UCI
-
Librispeech
- 描述:约1000小时的16Khz英语朗读音频。
- 来源:OpenSLR
-
LJ Speech
- 描述:包含13100个短音频片段,来自单一说话者阅读非小说书籍。
- 来源:Keithito
-
Microsoft Scalable Noisy Speech Dataset
- 描述:可根据需求扩展的噪声语音数据集。
- 来源:GitHub
-
Multimodal EmotionLines Dataset (MELD)
- 描述:扩展自EmotionLines,包含音频和视觉模态数据。
- 来源:GitHub
-
Noisy Dataset
- 描述:清洁和噪声并行的语音数据库,设计用于48kHz的语音增强方法。
- 来源:DataShare
-
Parkinsons speech dataset
- 描述:包含20名帕金森病患者和20名健康个体的多种声音记录。
- 来源:UCI
-
Persian Consonant Vowel Combination (PCVC) Speech Dataset
- 描述:现代波斯语语音识别和说话者识别数据集。
- 来源:GitHub
-
Speech Accent Archive
- 描述:用于各种口音检测任务。
- 来源:Kaggle
-
Speech Commands Dataset
- 描述:包含65000个一秒长的30个短词的语音样本。
- 来源:Google AI Blog
-
Spoken Commands dataset
- 描述:用于语音活动检测算法和命令识别的大数据库。
- 来源:GitHub
-
Spoken Wikipeida Corpora
- 描述:38GB大小的音频和非音频格式的数据集。
- 来源:NATS
-
Tatoeba
- 描述:用于语言学习的句子、翻译和语音数据库。
- 来源:Tatoeba
-
Ted-LIUM
- 描述:从TED网站获取的音频讲座及其转录。
- 来源:OpenSLR
-
TIMIT dataset
- 描述:包含8种主要美国英语方言的630名说话者的宽带录音。
- 来源:LDC93S1
-
Voice Gender Detection
- 描述:使用VoxCeleb数据集进行语音性别检测的GitHub仓库。
- 来源:GitHub
-
VoxCeleb
- 描述:大规模说话者识别数据集,包含约100,000个语音片段。
- 来源:GitHub
-
VoxForge
- 描述:用于收集用于免费开源语音识别引擎的转录语音。
- 来源:VoxForge
-
Zero Resource Speech Challenge
- 描述:旨在构建一个从零开始学习未知语言的端到端口语对话系统。
- 来源:GitHub
音频事件和音乐数据集列表
-
AudioSet
- 描述:包含632种音频事件类别的2,084,320个10秒声音片段。
- 来源:Google Research
-
Bird audio detection challenge
- 描述:包含新的生物声学监测项目数据集,大小为5.4GB。
- 来源:QMUL
-
Environmental audio dataset
- 描述:用于环境音频研究的音频数据集。
- 来源:TUT
-
Free Music Archive
- 描述:用于音乐分析的数据集,大小为1000GB。
- 来源:GitHub
-
Freesound dataset
- 描述:包含多种声音事件的数据集。
- 来源:Kaggle
-
Karoldvl-ESC
- 描述:包含2000个环境音频记录的数据集,适合环境声音分类方法的基准测试。
- 来源:GitHub
-
Million Song Dataset
- 描述:包含一百万当代流行音乐曲目的音频特征和元数据。
- 来源:Columbia
-
Public domain sounds
- 描述:用于唤醒词检测和对象检测研究的各种声音。
- 来源:PDSounds
-
Urban Sound Dataset
- 描述:包含两个数据集和一个城市声音研究的分类法。
- 来源:UrbanSoundDataset




