AudioDataset

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/XiaoyuBIE1994/AudioDataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含多种音频数据集的仓库，包括语音、音乐和音频混合数据集。语音数据集如VCTK和LibriSpeech，音乐数据集如StarNet，音频混合数据集如Libri2Mix和Divide and Remaster (DnR)。

A repository containing a variety of audio datasets, including speech, music, and audio mixture datasets. Speech datasets such as VCTK and LibriSpeech, music datasets like StarNet, and audio mixture datasets such as Libri2Mix and Divide and Remaster (DnR).

创建时间：

2023-11-08

原始信息汇总

数据集概述

语音数据集

VCTK v0.92
- 包含110位带有各种口音的英语演讲者，每人朗读约400句话。
- 所有录音转换为48 kHz。
- 训练集大小：待定。
VoiceBank-DEMAND
- 单通道人类语音，48 kHz。
- 包含噪声的语音，噪声来自DEMAND数据集。
- 28位演讲者版本：
  - 训练集包含11,572个话语（约9.4小时）。
  - 测试集包含824个话语（约0.6小时）。
  - 验证集（从训练集中分离）包含770个话语（约0.6小时），剩余训练集包含10,802个话语（约8.8小时）。
- 56位演讲者版本：待定。
LibriSpeech
- 约1000小时的16kHz朗读英语语音语料库。
- 训练集：100小时+360小时+500小时（总计960小时）。
- 开发集和测试集详情待定。
DNS-Challenge 5
- 包含多语言的清晰语音和各种噪声。

音乐数据集

StarNet
- 包含104首48 kHz的古典音乐曲目，源自相应的免费MIDI文件。
- 曲目详情：
  - xxx.0.wav: 单簧管-颤音琴混合
  - xxx.1.wav: 单簧管曲目
  - xxx.2.wav: 颤音琴曲目
  - xxx.3.wav: 弦乐-钢琴混合
  - xxx.4.wav: 弦乐曲目
  - xxx.5.wav: 钢琴曲目

音频混合数据集

Libri2Mix
- 详情待定。
Divide and Remaster (DnR)
- 单通道混合音频，包含语音、音乐和声音效果/背景音轨，44.1 kHz。
- 音频来源：librispeech（语音），免费音乐档案（音乐），FSD50k（声音效果）。
- 训练集包含3,406个混合（约57小时）。
- 验证集包含487个混合（约8小时）。
- 测试集包含973个混合（约16小时）。
MUSAN
- 包含音乐、语音和噪声的语料库，16 kHz，适用于语音活动检测（VAD）和音乐/语音区分。
- 语音：426个话语（约60小时），来源自LibriVox和美国政府。
- 音乐：660个话语（约42小时），来源自Jamendo、免费音乐档案、Incompetech和HD古典音乐。
- 噪声：930个话语（约6小时），来源自免费声音和声音圣经。

搜集汇总

数据集介绍

构建方式

AudioDataset数据集的构建方式主要通过整合多个公开的音频数据集，涵盖了语音、音乐和音频混合等多个领域。例如，语音部分包括了VCTK v0.92、VoiceBanK-DEMAND和LibriSpeech等数据集，这些数据集包含了不同口音的英语语音，且部分数据集还加入了噪声以模拟真实环境。音乐部分则引入了StarNet和MUSAN等数据集，提供了多种乐器的音频样本。音频混合部分则包括了Libri2Mix和Divide and Remaster (DnR)等数据集，这些数据集通过混合不同来源的音频，模拟了复杂的音频场景。

特点

AudioDataset数据集的特点在于其多样性和广泛性。首先，数据集涵盖了从语音到音乐再到复杂音频混合的多种类型，满足了不同音频处理任务的需求。其次，数据集中的音频样本具有高采样率（如48 kHz和16 kHz），确保了音频质量的高保真度。此外，部分数据集还包含了噪声和背景音，使得数据集更贴近真实世界的音频环境，适合用于噪声抑制、语音增强等任务。

使用方法

AudioDataset数据集的使用方法灵活多样，适用于多种音频处理任务。对于语音识别和语音增强任务，用户可以选择VCTK v0.92、VoiceBanK-DEMAND等数据集进行训练和测试。对于音乐分离和音频混合任务，StarNet和Divide and Remaster (DnR)等数据集提供了丰富的资源。此外，数据集的高采样率和多样化的音频类型使得其在深度学习模型的训练中表现出色，用户可以根据具体任务需求选择合适的子集进行实验和应用。

背景与挑战

背景概述

AudioDataset 是一个汇集了多种音频数据集的资源库，涵盖了语音、音乐和音频混合等多个领域。该数据集的创建旨在为音频处理、语音识别、音乐分析等领域的研究提供丰富的数据支持。其中，VCTK v0.92 数据集包含了110位具有不同口音的英语说话者的录音，VoiceBanK-DEMAND 则提供了在多种噪声环境下的人类语音数据，LibriSpeech 和 Libri-light 分别提供了大规模的标注和未标注英语语音数据。这些数据集的构建和发布，极大地推动了语音识别、音频增强和音乐信息检索等领域的研究进展。

当前挑战

AudioDataset 在构建过程中面临了多重挑战。首先，语音数据集如 VoiceBanK-DEMAND 需要在多种噪声环境下进行录制和处理，确保数据的多样性和真实性。其次，音乐数据集如 StarNet 需要从MIDI文件中提取并转换为音频格式，确保音质和数据完整性。此外，音频混合数据集如 Libri2Mix 和 Divide and Remaster (DnR) 需要精确控制不同音频源的混合比例，以模拟真实场景。这些挑战不仅涉及技术层面的数据处理和质量控制，还包括数据集的多样性和代表性，以满足不同研究需求。

常用场景

经典使用场景

AudioDataset数据集在语音处理领域中具有广泛的应用，尤其是在语音识别、语音增强和语音分离等任务中。例如，VCTK v0.92数据集通过提供多种口音的英语语音数据，为语音识别模型的训练提供了丰富的资源，有助于提升模型对不同口音的适应能力。此外，VoiceBanK-DEMAND数据集通过引入噪声环境下的语音数据，为语音增强技术的研究提供了宝贵的实验材料，特别是在噪声环境下的语音清晰度提升方面。

解决学术问题

AudioDataset数据集在学术研究中解决了多个关键问题，特别是在语音和音频处理领域。例如，通过提供多样的语音和噪声数据，该数据集有助于研究者开发和验证语音增强算法，解决在复杂环境下的语音清晰度问题。此外，LibriSpeech和Libri-light数据集为大规模语音识别系统的训练提供了丰富的资源，推动了语音识别技术的进步。这些数据集的使用显著提升了语音处理算法的鲁棒性和准确性。

衍生相关工作

AudioDataset数据集的发布和使用催生了一系列相关的经典研究工作。例如，基于VCTK v0.92数据集的研究推动了多口音语音识别技术的发展，而VoiceBanK-DEMAND数据集则激发了噪声环境下语音增强算法的研究。此外，LibriSpeech数据集的使用促进了大规模语音识别模型的训练和优化，相关的研究成果在多个语音识别竞赛中取得了优异成绩。这些数据集不仅为学术研究提供了丰富的资源，也为工业界的语音技术应用奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集