AI Audio Datasets List (AI-ADL)

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/Yuan-ManX/ai-audio-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含语音、音乐和声效的数据集列表，用于生成AI、AIGC、AI模型训练、智能音频工具开发和音频应用。主要用于语音识别、语音合成、歌唱语音合成、音乐信息检索、音乐生成、音频处理、声音合成等。

This is a dataset list encompassing speech, music, and sound effects, utilized for generative AI, AIGC, AI model training, intelligent audio tool development, and audio applications. It is primarily employed in speech recognition, speech synthesis, singing voice synthesis, music information retrieval, music generation, audio processing, and sound synthesis.

创建时间：

2022-12-18

原始信息汇总

数据集概述

数据集名称

AI Audio Datasets List (AI-ADL) 🎵

数据集内容

AI-ADL 是一个包含语音、音乐和音效的数据集列表，主要用于生成AI、AIGC、AI模型训练、智能音频工具开发和音频应用。该数据集适用于语音识别、语音合成、歌唱语音合成、音乐信息检索、音乐生成、音频处理、声音合成等领域。

数据集分类

Speech
Music
Sound Effect

主要数据集详情

Speech

AISHELL-1
- 描述：用于普通话语音识别研究和构建语音识别系统的语料库。
- 链接：AISHELL-1
AISHELL-3
- 描述：由北京Shell Shell Technology Co.,Ltd发布的大规模、高保真多说话人普通话语料库，用于训练多说话人文本到语音(TTS)系统。
- 链接：AISHELL-3
Arabic speech Corpus
- 描述：现代标准阿拉伯语(MSA)语音语料库，用于语音合成。
- 链接：Arabic speech Corpus
AudioMNIST
- 描述：包含60个不同说话者的30000个语音数字样本。
- 链接：AudioMNIST
AVSpeech
- 描述：大规模音视频数据集，包含无干扰背景信号的语音片段。
- 链接：AVSpeech
ATIS (Airline Travel Information Systems)
- 描述：包含关于人类询问自动航空旅行查询系统的音频记录和相应手动转录的数据集。
- 链接：ATIS
Carnatic Varnam Dataset
- 描述：用于研究卡纳提克拉加调音分析的28个独唱录音集。
- 链接：Carnatic Varnam Dataset
Casual Conversations
- 描述：帮助研究人员评估其计算机视觉和音频模型在多样化的年龄、性别、明显肤色和环境光照条件下的准确性的数据集。
- 链接：Casual Conversations
CN-Celeb
- 描述：大规模野外说话人识别数据集，包含1000名中国名人的超过130,000条语音。
- 链接：CN-Celeb
Clotho
- 描述：音频字幕数据集，包含4981个音频样本，每个样本有五个字幕。
- 链接：Clotho
Common Voice
- 描述：包含9,283小时录音的音频数据集，包括年龄、性别和口音等人口统计元数据。
- 链接：Common Voice
CoVoST
- 描述：大规模多语言语音到文本翻译语料库，涵盖21种语言到英语和15种语言从英语的翻译。
- 链接：CoVoST
CVSS
- 描述：大规模多语言到英语的语音到语音翻译(S2ST)语料库，涵盖21种语言到英语的句子级平行S2ST对。
- 链接：CVSS
EasyCom
- 描述：首个旨在帮助缓解增强现实(AR)驱动的多传感器自我中心世界观中的鸡尾酒会效应的数据集。
- 链接：EasyCom
ESD (Emotional Speech Database)
- 描述：用于语音转换研究的情感语音数据库，包含350个平行语句，由10名母语为英语和10名母语为中文的说话者以5种情感类别（中性、快乐、愤怒、悲伤和惊喜）表达。
- 链接：ESD
FPT Open Speech Dataset (FOSD)
- 描述：包含25,921个越南语演讲录音（及其转录和每个演讲的标记开始和结束时间）的数据集，手动编译自2018年公开发布的3个子数据集。
- 链接：FOSD
Free Spoken Digit Dataset (FSDD)
- 描述：一个免费的语音数字音频数据集，类似于音频的MNIST。
- 链接：FSDD
Fluent Speech Commands
- 描述：一个开源音频数据集，用于口语理解(SLU)实验，每个话语都标有“动作”、“对象”和“位置”值。
- 链接：Fluent Speech Commands
Genshin Datasets
- 描述：用于SVC/SVS/TTS的Genshin数据集。
- 链接：Genshin Datasets
GenshinVoice
- 描述：原神语音数据集。
- 链接：GenshinVoice
GigaSpeech
- 描述：一个多领域的英语语音识别语料库，包含10,000小时的高质量标记音频，适合监督训练，以及40,000小时的总体音频，适合半监督和无监督训练。
- 链接：GigaSpeech
GigaSpeech 2
- 描述：一个针对低资源语言的进化、大规模和多领域自动语音识别(ASR)语料库，具有自动爬取、转录和细化功能。
- 链接：GigaSpeech 2
How2
- 描述：包含13,500个视频或300小时语音的数据集，分为185,187个训练、2022个开发和2361个测试话语。
- 链接：How2
inaGVAD
- 描述：一个具有语音活动检测(VAD)和说话者性别分割(SGS)注释的法语电视和广播数据集，附有评估脚本和详细的注释方案。
- 链接：inaGVAD
KdConv
- 描述：一个中文多领域知识驱动对话数据集，将多轮对话中的主题与知识图谱相结合。
- 链接：KdConv
Libriheavy
- 描述：一个包含50,000小时ASR语料库，具有标点符号、大小写和上下文。
- 链接：Libriheavy
LibriSpeech
- 描述：一个包含大约1,000小时有声读物的语料库，主要来自LibriVox项目。
- 链接：LibriSpeech
LibriTTS
- 描述：一个多说话人英语语料库，包含大约585小时的英语朗读语音，采样率为24kHz，专为TTS研究设计。
- 链接：LibriTTS
LibriTTS-R
- 描述：通过应用语音恢复技术从LibriTTS语料库中派生的多说话人文本到语音语料库。
- 链接：LibriTTS-R
LJSpeech (The LJ Speech Dataset)
- 描述：一个公共领域语音数据集，包含13,100个短音频片段，由单个说话者朗读7本非虚构书籍的段落。
- 链接：LJSpeech
LRS2 (Lip Reading Sentences 2)
- 描述：牛津-BBC唇读句子2(LRS2)数据集，是最大的公开可用唇读句子数据集之一。
- 链接：LRS2
LRW (Lip Reading in the Wild)
- 描述：一个大规模音视频数据库，包含来自1,000多名说话者的500个不同单词。
- 链接：LRW
MuAViC
- 描述：一个多语言音视频语料库，用于鲁棒语音识别和鲁棒语音到文本翻译。
- 链接：MuAViC
MuST-C
- 描述：目前最大的公开可用多语言语料库(一

搜集汇总

数据集介绍

构建方式

AI Audio Datasets List (AI-ADL) 是一个综合性的音频数据集集合，涵盖了语音、音乐和音效等多个领域。该数据集的构建基于广泛的公开资源和研究项目，通过整合来自不同来源的音频数据，形成了一个多样化的数据集库。每个子数据集都经过精心筛选和标注，确保其适用于生成式人工智能、AIGC、AI模型训练以及智能音频工具开发等应用场景。数据集的构建过程包括数据采集、清洗、标注和格式统一，以确保其质量和可用性。

特点

AI-ADL 数据集的特点在于其多样性和广泛的应用范围。数据集涵盖了多种语言、音频类型和情感表达，能够满足不同研究需求。例如，AISHELL-1 和 AISHELL-3 专注于汉语语音识别，而 AVSpeech 则提供了无背景干扰的视听语音数据。此外，数据集还包含了丰富的元数据，如说话者的年龄、性别和口音信息，为研究者提供了更多的分析维度。数据集的多样性和高质量标注使其成为音频相关研究的理想选择。

使用方法

AI-ADL 数据集的使用方法灵活多样，适用于多种音频处理任务。研究者可以根据具体需求选择相应的子数据集进行实验。例如，语音识别任务可以使用 AISHELL-1 或 LibriSpeech，而情感语音转换则可以参考 ESD 数据集。数据集通常以标准格式提供，如 WAV 音频文件和对应的文本标注，便于直接加载和处理。此外，许多子数据集还提供了详细的文档和示例代码，帮助用户快速上手。通过合理利用这些数据集，研究者可以显著提升音频相关模型的性能和泛化能力。

背景与挑战

背景概述

AI Audio Datasets List (AI-ADL) 是一个涵盖语音、音乐和音效的综合性音频数据集，旨在为生成式人工智能、AIGC、AI模型训练、智能音频工具开发以及音频应用提供训练数据。该数据集由多个子数据集组成，包括AISHELL-1、AISHELL-3、Arabic Speech Corpus等，涵盖了从语音识别到情感语音转换的多个研究领域。AI-ADL的创建时间不详，但其核心研究问题在于如何通过多样化的音频数据提升AI模型的泛化能力和应用效果。该数据集对语音识别、语音合成、情感分析等领域的研究具有重要影响力，推动了相关技术的进步。

当前挑战

AI-ADL在解决音频数据处理领域问题时面临多重挑战。首先，音频数据的多样性和复杂性使得模型训练过程中难以捕捉到所有可能的语音特征，尤其是在多语言、多方言和多情感场景下。其次，数据集的构建过程中，音频数据的采集、标注和清洗工作极为繁琐，尤其是在处理大规模数据时，确保数据的准确性和一致性成为一大难题。此外，音频数据中的噪声干扰、背景音混入等问题也对模型的训练效果产生了显著影响。如何在保证数据质量的同时，提升数据集的覆盖范围和多样性，是AI-ADL面临的核心挑战之一。

常用场景

经典使用场景

AI Audio Datasets List (AI-ADL) 在语音识别、音乐生成和音效处理等领域中具有广泛的应用。该数据集为生成式人工智能（Generative AI）和智能音频工具的开发提供了丰富的训练数据，特别是在多语种语音识别和情感语音合成的研究中，AI-ADL 提供了高质量的语音样本和标注信息，帮助研究人员构建和优化语音处理模型。

解决学术问题

AI-ADL 解决了语音识别和合成领域中的多个关键问题，如多语种语音数据的稀缺性、情感语音合成的复杂性以及音频与文本对齐的精确性。通过提供大规模、多样化的语音数据集，AI-ADL 为跨语言语音识别、情感语音转换和音频字幕生成等研究提供了坚实的基础，推动了语音处理技术的进步。

衍生相关工作

AI-ADL 衍生了许多经典的研究工作，如基于 AISHELL-3 的多说话人语音合成系统、基于 AVSpeech 的音频-视觉语音分离模型以及基于 Clotho 的音频字幕生成算法。这些工作不仅在学术界取得了显著成果，还为工业界的语音技术应用提供了重要的技术支持，推动了语音处理领域的持续发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集