five

voice_datasets

收藏
github2020-09-09 更新2024-05-31 收录
下载链接:
https://github.com/garain/voice_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含超过40个开源语音和音乐数据集的综合列表,用于语音和声音计算。

A comprehensive list of over 40 open-source speech and music datasets, designed for computational analysis of voice and sound.
创建时间:
2020-04-29
原始信息汇总

数据集概述

音频数据集分类

  • 语音数据集
  • 音频事件/音乐数据集

语音数据集列表

  1. 2000 HUB5 English

    • 描述:专注于电话中的对话语音转录任务,探索和开发新的语音识别技术。
    • 来源:LDC2002T43
  2. Arabic Speech Corpus

    • 描述:现代标准阿拉伯语语音合成数据集,包含超过3.7小时的语音数据。
    • 来源:ArabicSpeechCorpus
  3. ASR datasets

    • 描述:公开可用的音频数据列表,适用于自动语音识别等任务。
    • 来源:GitHub
  4. AudioMNIST

    • 描述:包含30000个不同说话者发音的数字音频样本。
    • 来源:GitHub
  5. Awesome_Diarization

    • 描述:关于说话者分割的论文、库、数据集和其他资源的精选列表。
    • 来源:GitHub
  6. Common Voice

    • 描述:Mozilla发起的项目,用于训练机器理解人类语音,大小为12GB。
    • 来源:Mozilla
  7. CHIME

    • 描述:包含真实、模拟和清洁语音记录的噪声语音识别挑战数据集。
    • 来源:Internet Archive
  8. CMU Wilderness

    • 描述:包含多种口音的圣经朗诵,非商业用途。
    • 来源:Festvox
  9. CREMA-D

    • 描述:包含7442个片段,来自91名演员的情感语音数据集。
    • 来源:GitHub
  10. DAPS Dataset

    • 描述:包含20名说话者阅读公共领域书籍的片段。
    • 来源:Internet Archive
  11. Deep Clustering Dataset

    • 描述:用于训练深度判别嵌入以解决鸡尾酒会问题。
    • 来源:MERL
  12. Emotional Voices Database

    • 描述:包含5名演员表达不同情绪的语音数据。
    • 来源:GitHub
  13. Emotional Voice dataset - Nature

    • 描述:包含来自5种文化的100名演员的2519个语音样本。
    • 来源:Nature
  14. Free Spoken Digit Dataset

    • 描述:包含4名说话者发音的2000个数字音频样本。
    • 来源:GitHub
  15. Flickr Audio Caption

    • 描述:包含40000个关于8000张自然图像的语音描述。
    • 来源:MIT
  16. ISOLET Data Set

    • 描述:38.7GB的数据集,用于预测发音的字母名称。
    • 来源:UCI
  17. Librispeech

    • 描述:约1000小时的16Khz英语朗读音频。
    • 来源:OpenSLR
  18. LJ Speech

    • 描述:包含13100个短音频片段,来自单一说话者阅读非小说书籍。
    • 来源:Keithito
  19. Microsoft Scalable Noisy Speech Dataset

    • 描述:可根据需求扩展的噪声语音数据集。
    • 来源:GitHub
  20. Multimodal EmotionLines Dataset (MELD)

    • 描述:扩展自EmotionLines,包含音频和视觉模态数据。
    • 来源:GitHub
  21. Noisy Dataset

    • 描述:清洁和噪声并行的语音数据库,设计用于48kHz的语音增强方法。
    • 来源:DataShare
  22. Parkinsons speech dataset

    • 描述:包含20名帕金森病患者和20名健康个体的多种声音记录。
    • 来源:UCI
  23. Persian Consonant Vowel Combination (PCVC) Speech Dataset

    • 描述:现代波斯语语音识别和说话者识别数据集。
    • 来源:GitHub
  24. Speech Accent Archive

    • 描述:用于各种口音检测任务。
    • 来源:Kaggle
  25. Speech Commands Dataset

    • 描述:包含65000个一秒长的30个短词的语音样本。
    • 来源:Google AI Blog
  26. Spoken Commands dataset

    • 描述:用于语音活动检测算法和命令识别的大数据库。
    • 来源:GitHub
  27. Spoken Wikipeida Corpora

    • 描述:38GB大小的音频和非音频格式的数据集。
    • 来源:NATS
  28. Tatoeba

    • 描述:用于语言学习的句子、翻译和语音数据库。
    • 来源:Tatoeba
  29. Ted-LIUM

    • 描述:从TED网站获取的音频讲座及其转录。
    • 来源:OpenSLR
  30. TIMIT dataset

    • 描述:包含8种主要美国英语方言的630名说话者的宽带录音。
    • 来源:LDC93S1
  31. Voice Gender Detection

    • 描述:使用VoxCeleb数据集进行语音性别检测的GitHub仓库。
    • 来源:GitHub
  32. VoxCeleb

    • 描述:大规模说话者识别数据集,包含约100,000个语音片段。
    • 来源:GitHub
  33. VoxForge

    • 描述:用于收集用于免费开源语音识别引擎的转录语音。
    • 来源:VoxForge
  34. Zero Resource Speech Challenge

    • 描述:旨在构建一个从零开始学习未知语言的端到端口语对话系统。
    • 来源:GitHub

音频事件和音乐数据集列表

  1. AudioSet

    • 描述:包含632种音频事件类别的2,084,320个10秒声音片段。
    • 来源:Google Research
  2. Bird audio detection challenge

    • 描述:包含新的生物声学监测项目数据集,大小为5.4GB。
    • 来源:QMUL
  3. Environmental audio dataset

    • 描述:用于环境音频研究的音频数据集。
    • 来源:TUT
  4. Free Music Archive

    • 描述:用于音乐分析的数据集,大小为1000GB。
    • 来源:GitHub
  5. Freesound dataset

    • 描述:包含多种声音事件的数据集。
    • 来源:Kaggle
  6. Karoldvl-ESC

    • 描述:包含2000个环境音频记录的数据集,适合环境声音分类方法的基准测试。
    • 来源:GitHub
  7. Million Song Dataset

    • 描述:包含一百万当代流行音乐曲目的音频特征和元数据。
    • 来源:Columbia
  8. Public domain sounds

    • 描述:用于唤醒词检测和对象检测研究的各种声音。
    • 来源:PDSounds
  9. Urban Sound Dataset

    • 描述:包含两个数据集和一个城市声音研究的分类法。
    • 来源:UrbanSoundDataset
搜集汇总
数据集介绍
main_image_url
构建方式
voice_datasets数据集通过整合多个开源语音和音乐数据集构建而成,涵盖了从语音识别到音频事件检测的广泛领域。数据集的构建基于公开可用的资源,包括来自不同语言、口音和背景的语音样本,以及多样化的音频事件和音乐片段。每个子数据集均经过精心筛选,确保其适用于语音处理、情感分析、语音合成等任务。数据集的构建过程注重多样性和代表性,涵盖了从电话录音到公开演讲的多种语音场景。
特点
voice_datasets数据集的特点在于其广泛覆盖的语音和音频数据类型,涵盖了多种语言、口音和情感表达。数据集不仅包含高质量的语音样本,还提供了丰富的元数据,如语音的文本转录、情感标签和音频事件的分类信息。此外,数据集还包含来自不同文化和背景的语音样本,使其适用于跨文化语音研究和多语言语音处理任务。数据集的多样性和规模使其成为语音识别、情感分析和音频事件检测等领域的理想选择。
使用方法
voice_datasets数据集的使用方法灵活多样,适用于多种语音和音频处理任务。用户可以根据需求选择特定的子数据集,如语音识别任务可选择包含丰富转录的语音数据集,情感分析任务则可使用带有情感标签的语音样本。数据集提供了详细的元数据和标注信息,用户可以通过这些信息快速定位所需数据。此外,数据集支持多种格式的音频文件,便于直接应用于现有的语音处理框架和工具。用户还可以通过GitHub页面提供的链接访问更多资源,进一步扩展数据集的应用场景。
背景与挑战
背景概述
voice_datasets数据集由Jim Schwoebel于2019年在VOICE Summit上发布,旨在为语音和音乐研究领域提供一个全面的开源数据集集合。该数据集涵盖了多种语音和音频事件数据集,广泛应用于语音识别、情感分析、说话人识别等任务。其核心研究问题在于如何通过多样化的语音和音频数据,提升机器对语音的理解和处理能力。该数据集对语音计算领域的研究具有重要影响,尤其是在多语言、多情感、多环境下的语音处理任务中,为研究者提供了丰富的数据资源。
当前挑战
voice_datasets数据集面临的挑战主要体现在两个方面。首先,语音数据的多样性和复杂性使得模型在处理不同口音、语速、背景噪声等变量时表现不稳定,尤其是在多语言和跨文化场景下,语音识别的准确性受到极大挑战。其次,数据集的构建过程中,如何确保数据的质量、标注的准确性以及数据隐私保护是主要难题。此外,音频事件的多样性和复杂性也增加了数据采集和标注的难度,尤其是在环境音和音乐数据集中,如何准确捕捉和分类复杂的音频事件仍然是一个亟待解决的问题。
常用场景
经典使用场景
在语音识别和语音合成领域,voice_datasets数据集被广泛应用于模型训练和评估。通过提供多样化的语音样本,包括不同语言、口音和情感表达,该数据集为研究人员提供了丰富的实验材料。特别是在自动语音识别(ASR)和语音情感分析等任务中,voice_datasets的多样性和规模使其成为验证算法性能的理想选择。
实际应用
在实际应用中,voice_datasets被广泛用于智能语音助手、语音翻译系统和情感计算等领域。例如,基于该数据集训练的模型可以用于开发多语言语音助手,帮助用户在不同语言环境中进行无缝交流。此外,情感语音合成技术也被应用于虚拟客服和娱乐产业,提升了用户体验。
衍生相关工作
voice_datasets催生了许多经典的研究工作,如基于VoxCeleb的说话人识别系统和基于LibriSpeech的端到端语音识别模型。这些工作不仅在学术界取得了显著成果,还在工业界得到了广泛应用。例如,VoxCeleb数据集被用于开发高精度的说话人验证系统,而LibriSpeech则成为语音识别领域基准测试的标准数据集之一。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作