LibriVoc-Dataset

github2023-01-24 更新2024-05-31 收录

下载链接：

https://github.com/csun22/LibriVoc-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

LibriVoc是一个新的开源大型数据集，用于vocoder artifact检测。该数据集源自广泛用于文本到语音研究的LibriTTS语音语料库，而LibriTTS又源自Librispeech数据集，其中每个样本都提取自LibriVox有声读物。数据集中使用了六种最先进的神经vocoders生成语音样本，包括WaveNet、WaveRNN、Mel-GAN、Parallel WaveGAN、WaveGrad和DiffWave。训练集包含126.41小时的实际样本和118.08小时的合成自vocoded样本。

LibriVoc is a novel open-source large-scale dataset designed for vocoder artifact detection. This dataset is derived from the LibriTTS speech corpus, which is extensively utilized in text-to-speech research, and LibriTTS itself originates from the Librispeech dataset, with each sample extracted from LibriVox audiobooks. The dataset incorporates speech samples generated by six state-of-the-art neural vocoders, including WaveNet, WaveRNN, Mel-GAN, Parallel WaveGAN, WaveGrad, and DiffWave. The training set comprises 126.41 hours of real samples and 118.08 hours of synthetic vocoded samples.

创建时间：

2023-01-19

原始信息汇总

LibriVoc-Dataset 概述

数据集来源

原始数据来源：LibriTTS speech corpus，源自Librispeech dataset。
音频来源：LibriVox audiobooks。

数据集内容

样本类型：包含真实样本和合成样本。
样本时长：
- 训练集：真实样本126.41小时，合成样本118.08小时。
- 验证集和测试集：具体时长未详述。

合成方法

使用技术：六种神经网络vocoders，包括WaveNet, WaveRNN, MelGAN, Parallel WaveGAN, WaveGrad, DiffWave。

合成细节：

Model	train-clean-100	train-clean-360	dev-clean	test-clean
WaveNet	4.28	15.49	0.75	0.76
WaveRNN	4.33	14.92	0.67	0.72
MelGAN	4.36	15.26	0.71	0.76
Parallel WaveGAN	4.37	15.54	0.68	0.75
WaveGrad	4.19	15.81	0.76	0.74
DiffWave	4.16	15.37	0.62	0.66
Total	25.69	92.39	4.19	4.39

数据集结构

样本分配：
1. 25%的说话人样本为真实样本。
2. 25%的说话人样本为合成样本。
3. 剩余50%的说话人样本中，一半为真实样本，一半为合成样本。
数据集分割：
- 训练集：33,236样本。
- 验证集：5,736样本。
- 测试集：4,837样本。

数据集用途

主要用途：vocoder artifact detection。

搜集汇总

数据集介绍

构建方式

LibriVoc数据集是基于LibriTTS语音语料库构建的，专门用于声码器伪影检测。该数据集通过六种先进的神经声码器（包括自回归声码器、基于GAN的声码器以及基于扩散的声码器）生成语音样本。具体而言，训练集中包含126.41小时的真实样本和118.08小时的合成样本。每个声码器从原始样本中提取的梅尔频谱图生成波形样本，这一过程称为“自声码化”。为确保分类器在训练过程中不会过度拟合说话者身份，数据集设计为25%的说话者仅包含真实样本，25%仅包含合成样本，剩余50%的说话者样本中一半为真实样本，另一半为合成样本。

特点

LibriVoc数据集的特点在于其多样性和平衡性。数据集涵盖了多种声码器生成的语音样本，包括WaveNet、WaveRNN、Mel-GAN、Parallel WaveGAN、WaveGrad和DiffWave，确保了样本的多样性和代表性。此外，数据集的构建方式避免了分类器对说话者身份的过度依赖，通过合理分配真实样本和合成样本的比例，确保了模型训练的泛化能力。数据集还提供了详细的训练集、开发集和测试集划分，便于研究者进行模型训练和评估。

使用方法

LibriVoc数据集的使用方法主要围绕声码器伪影检测任务展开。研究者可以通过该数据集训练和评估声码器伪影检测模型。数据集已划分为训练集、开发集和测试集，分别包含33,236、5,736和4,837个样本。在训练过程中，研究者可以利用开发集进行模型调优，最终在测试集上评估模型性能。数据集的多样性和平衡性设计使得模型能够在不同声码器生成的样本上表现出良好的泛化能力，从而为声码器伪影检测研究提供了可靠的实验基础。

背景与挑战

背景概述

LibriVoc数据集是一个专注于声码器伪影检测的开源大规模数据集，源自广泛应用于文本到语音研究领域的LibriTTS语音语料库。该数据集由LibriVox有声读物中的样本提取而来，旨在通过多种先进的神经声码器生成语音样本，以研究不同声码器在语音合成中的伪影特征。LibriVoc数据集由多个研究机构共同开发，涵盖了126.41小时的真实样本和118.08小时的合成样本，为声码器性能评估和伪影检测提供了丰富的实验数据。该数据集的创建不仅推动了语音合成领域的技术进步，还为相关研究提供了重要的基准资源。

当前挑战

LibriVoc数据集在构建和应用过程中面临多重挑战。首先，声码器伪影检测本身是一个复杂的任务，需要区分真实语音与合成语音之间的细微差异，这对模型的敏感性和鲁棒性提出了极高要求。其次，数据集的构建过程中，如何确保不同声码器生成的样本具有可比性，同时避免因样本分布不均导致的模型过拟合问题，是一个关键的技术难点。此外，数据集的规模庞大，处理和管理海量音频数据对计算资源和存储能力提出了严峻挑战。最后，如何在训练过程中平衡真实样本与合成样本的比例，以确保模型的泛化能力，也是需要深入研究的核心问题。

常用场景

经典使用场景

LibriVoc数据集在语音合成领域中被广泛应用于声码器伪影检测的研究。通过使用六种先进的神经声码器生成语音样本，该数据集为研究人员提供了一个标准化的平台，用于评估和比较不同声码器在生成语音时的伪影特征。这种标准化的比较有助于揭示不同声码器在语音合成中的优缺点，从而推动声码器技术的进一步发展。

衍生相关工作

基于LibriVoc数据集，研究人员已经开展了多项关于声码器伪影检测的经典工作。例如，一些研究利用该数据集开发了新的伪影检测算法，能够更精确地识别和分类不同声码器生成的伪影。此外，该数据集还被用于训练深度学习模型，以自动检测和修复语音合成中的伪影，进一步推动了语音合成技术的发展。

数据集最近研究