AudioDataset|音频数据数据集|语音识别数据集

github2024-05-14 更新2024-05-31 收录

音频数据

语音识别

下载链接：

https://github.com/XiaoyuBIE1994/AudioDataset

下载链接

链接失效反馈

资源简介：

一个包含多种音频数据集的仓库，包括语音、音乐和音频混合数据集。语音数据集如VCTK和LibriSpeech，音乐数据集如StarNet，音频混合数据集如Libri2Mix和Divide and Remaster (DnR)。

A repository containing a variety of audio datasets, including speech, music, and audio mixture datasets. Speech datasets such as VCTK and LibriSpeech, music datasets like StarNet, and audio mixture datasets such as Libri2Mix and Divide and Remaster (DnR).

创建时间：

2023-11-08

原始信息汇总

数据集概述

语音数据集

VCTK v0.92
- 包含110位带有各种口音的英语演讲者，每人朗读约400句话。
- 所有录音转换为48 kHz。
- 训练集大小：待定。
VoiceBank-DEMAND
- 单通道人类语音，48 kHz。
- 包含噪声的语音，噪声来自DEMAND数据集。
- 28位演讲者版本：
  - 训练集包含11,572个话语（约9.4小时）。
  - 测试集包含824个话语（约0.6小时）。
  - 验证集（从训练集中分离）包含770个话语（约0.6小时），剩余训练集包含10,802个话语（约8.8小时）。
- 56位演讲者版本：待定。
LibriSpeech
- 约1000小时的16kHz朗读英语语音语料库。
- 训练集：100小时+360小时+500小时（总计960小时）。
- 开发集和测试集详情待定。
DNS-Challenge 5
- 包含多语言的清晰语音和各种噪声。

音乐数据集

StarNet
- 包含104首48 kHz的古典音乐曲目，源自相应的免费MIDI文件。
- 曲目详情：
  - xxx.0.wav: 单簧管-颤音琴混合
  - xxx.1.wav: 单簧管曲目
  - xxx.2.wav: 颤音琴曲目
  - xxx.3.wav: 弦乐-钢琴混合
  - xxx.4.wav: 弦乐曲目
  - xxx.5.wav: 钢琴曲目

音频混合数据集

Libri2Mix
- 详情待定。
Divide and Remaster (DnR)
- 单通道混合音频，包含语音、音乐和声音效果/背景音轨，44.1 kHz。
- 音频来源：librispeech（语音），免费音乐档案（音乐），FSD50k（声音效果）。
- 训练集包含3,406个混合（约57小时）。
- 验证集包含487个混合（约8小时）。
- 测试集包含973个混合（约16小时）。
MUSAN
- 包含音乐、语音和噪声的语料库，16 kHz，适用于语音活动检测（VAD）和音乐/语音区分。
- 语音：426个话语（约60小时），来源自LibriVox和美国政府。
- 音乐：660个话语（约42小时），来源自Jamendo、免费音乐档案、Incompetech和HD古典音乐。
- 噪声：930个话语（约6小时），来源自免费声音和声音圣经。

AI搜集汇总

数据集介绍

构建方式

AudioDataset数据集的构建方式主要通过整合多个公开的音频数据集，涵盖了语音、音乐和音频混合等多个领域。例如，语音部分包括了VCTK v0.92、VoiceBanK-DEMAND和LibriSpeech等数据集，这些数据集包含了不同口音的英语语音，且部分数据集还加入了噪声以模拟真实环境。音乐部分则引入了StarNet和MUSAN等数据集，提供了多种乐器的音频样本。音频混合部分则包括了Libri2Mix和Divide and Remaster (DnR)等数据集，这些数据集通过混合不同来源的音频，模拟了复杂的音频场景。

特点

AudioDataset数据集的特点在于其多样性和广泛性。首先，数据集涵盖了从语音到音乐再到复杂音频混合的多种类型，满足了不同音频处理任务的需求。其次，数据集中的音频样本具有高采样率（如48 kHz和16 kHz），确保了音频质量的高保真度。此外，部分数据集还包含了噪声和背景音，使得数据集更贴近真实世界的音频环境，适合用于噪声抑制、语音增强等任务。

使用方法

AudioDataset数据集的使用方法灵活多样，适用于多种音频处理任务。对于语音识别和语音增强任务，用户可以选择VCTK v0.92、VoiceBanK-DEMAND等数据集进行训练和测试。对于音乐分离和音频混合任务，StarNet和Divide and Remaster (DnR)等数据集提供了丰富的资源。此外，数据集的高采样率和多样化的音频类型使得其在深度学习模型的训练中表现出色，用户可以根据具体任务需求选择合适的子集进行实验和应用。

背景与挑战

背景概述

AudioDataset 是一个汇集了多种音频数据集的资源库，涵盖了语音、音乐和音频混合等多个领域。该数据集的创建旨在为音频处理、语音识别、音乐分析等领域的研究提供丰富的数据支持。其中，VCTK v0.92 数据集包含了110位具有不同口音的英语说话者的录音，VoiceBanK-DEMAND 则提供了在多种噪声环境下的人类语音数据，LibriSpeech 和 Libri-light 分别提供了大规模的标注和未标注英语语音数据。这些数据集的构建和发布，极大地推动了语音识别、音频增强和音乐信息检索等领域的研究进展。

当前挑战

AudioDataset 在构建过程中面临了多重挑战。首先，语音数据集如 VoiceBanK-DEMAND 需要在多种噪声环境下进行录制和处理，确保数据的多样性和真实性。其次，音乐数据集如 StarNet 需要从MIDI文件中提取并转换为音频格式，确保音质和数据完整性。此外，音频混合数据集如 Libri2Mix 和 Divide and Remaster (DnR) 需要精确控制不同音频源的混合比例，以模拟真实场景。这些挑战不仅涉及技术层面的数据处理和质量控制，还包括数据集的多样性和代表性，以满足不同研究需求。

常用场景

经典使用场景

AudioDataset数据集在语音处理领域中具有广泛的应用，尤其是在语音识别、语音增强和语音分离等任务中。例如，VCTK v0.92数据集通过提供多种口音的英语语音数据，为语音识别模型的训练提供了丰富的资源，有助于提升模型对不同口音的适应能力。此外，VoiceBanK-DEMAND数据集通过引入噪声环境下的语音数据，为语音增强技术的研究提供了宝贵的实验材料，特别是在噪声环境下的语音清晰度提升方面。

解决学术问题

AudioDataset数据集在学术研究中解决了多个关键问题，特别是在语音和音频处理领域。例如，通过提供多样的语音和噪声数据，该数据集有助于研究者开发和验证语音增强算法，解决在复杂环境下的语音清晰度问题。此外，LibriSpeech和Libri-light数据集为大规模语音识别系统的训练提供了丰富的资源，推动了语音识别技术的进步。这些数据集的使用显著提升了语音处理算法的鲁棒性和准确性。

衍生相关工作

AudioDataset数据集的发布和使用催生了一系列相关的经典研究工作。例如，基于VCTK v0.92数据集的研究推动了多口音语音识别技术的发展，而VoiceBanK-DEMAND数据集则激发了噪声环境下语音增强算法的研究。此外，LibriSpeech数据集的使用促进了大规模语音识别模型的训练和优化，相关的研究成果在多个语音识别竞赛中取得了优异成绩。这些数据集不仅为学术研究提供了丰富的资源，也为工业界的语音技术应用奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录