GlowingBrick/so-vits-32k

Name: GlowingBrick/so-vits-32k
Creator: GlowingBrick
Published: 2023-03-27 14:22:00
License: 暂无描述

Hugging Face2023-03-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GlowingBrick/so-vits-32k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练和测试SoftVC VITS Singing Voice Conversion（SoVits）模型，该模型旨在将一个音频中语音的音色转化为目标说话人的音色。数据集需要按照特定的文件结构组织，并经过重采样、划分训练集、验证集、测试集以及生成hubert与f0等预处理步骤。

提供机构：

GlowingBrick

原始信息汇总

数据集概述

数据集用途

歌声音色转换：通过SoftVC内容编码器提取源音频语音特征，与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。

数据集使用规约

用户需自行解决数据集的授权问题，并承担因使用非授权数据集进行训练造成的一切责任和后果。
发布到视频平台的基于sovits制作的视频，必须在简介中明确指明用于变声器转换的输入源歌声、音频。
使用其他商用歌声合成软件作为输入源时，需确保遵守该软件的使用条例。

数据集更新

更新了4.0-v2模型，全部流程同4.0，在4.0-v2分支。
4.0模型及colab脚本已更新，统一采样率使用44100hz。
2.0版本已移至 sovits_2.0分支。
3.0版本使用FreeVC的代码结构，与旧版本不通用。

数据集准备

数据集应按以下结构放置：

dataset_raw ├───speaker0 │ ├───xxx1-xxx1.wav │ ├───... │ └───Lxx-0xx8.wav └───speaker1 ├───xx2-0xxx2.wav ├───... └───xxx7-xxx007.wav

数据预处理

重采样至 32khz。
自动划分训练集、验证集、测试集及生成配置文件。
生成hubert与f0。

训练与推理

训练命令：python train.py -c configs/config.json -m 32k
推理使用inference_main.py，需设置模型路径、待转换音频、变调半音数量及合成说话人名称。

模型文件

预先下载的模型文件包括：
- soft vc hubert：hubert-soft-0d54a1f4.pt，放置于hubert目录下。
- 预训练底模文件：G_0.pth与D_0.pth，放置于logs/32k目录下。

注意事项

当前分支是32khz版本的分支，推荐训练该版本模型。
若要训练48khz的模型，请切换到main分支。

搜集汇总

数据集介绍

构建方式

GlowingBrick/so-vits-32k数据集的构建，基于歌声音色转换模型SoVits，采用SoftVC内容编码器提取源音频语音特征，并与F0共同输入VITS模型替换原有文本输入，实现歌声的转换。数据集包含多个说话人的音频文件，按照特定的目录结构组织，并经过重采样、自动划分训练集验证集测试集等预处理步骤，以适应模型训练的需求。

特点

该数据集的特点在于，它为歌声音色转换模型提供了必要的音频数据，支持32kHz采样率的模型训练，具有更快的推理速度和较低的显存占用。数据集经过精心设计，确保包含多样化的音色和音域，预训练底模覆盖了男女生常见音域，有助于提高模型的泛化能力和训练效率。此外，数据集的构建遵循了严格的版权和使用规范。

使用方法

使用该数据集时，用户需遵循数据集的授权和使用规约，自行解决版权问题。数据集的准备需按照特定的目录结构进行，经过预处理步骤后，可使用提供的colab脚本一键制作和训练数据集。训练过程中，用户需根据生成的配置文件调整模型参数，并执行训练脚本。推理时，用户需根据指南准备待转换的音频文件和相应的参数，通过提供的推理脚本进行声音转换。

背景与挑战

背景概述

GlowingBrick/so-vits-32k数据集是一款专注于语音转换技术的研发成果，其核心研究问题是如何将一个音频中语音的音色转化为目标说话人的音色。该数据集并非文本转语音（TTS）系统，而是基于VITS开发的一种独立的说话人转换项目。自推出以来，so-vits-32k在语音合成领域引起了广泛关注，其主要研究人员为innnky，并在GitHub上持续更新与维护。该数据集的影响力体现在其能够处理断音问题，并提升音质，为相关领域的研究提供了重要的资源。

当前挑战

在研究领域问题上，so-vits-32k数据集面临的挑战包括如何确保音色转换的准确性和自然度，以及如何处理多说话人情况下的音色泄漏问题。在构建过程中，数据集的挑战主要体现在对高质量训练数据的需求，以及如何优化模型以适应不同的音域和说话人特点。此外，数据集的构建还需考虑授权问题，避免因使用非授权数据集而造成的侵权问题。

常用场景

经典使用场景

在语音合成领域，GlowingBrick/so-vits-32k数据集的典型应用是进行说话人转换，即将一个音频中的音色转化为另一个目标说话人的音色。这种技术广泛应用于音乐制作、游戏角色语音定制以及语音助手个性化等领域，通过该数据集训练的模型能够实现高质量的音色转换。

实际应用

在实际应用中，基于GlowingBrick/so-vits-32k数据集的模型可被用于创建个性化语音助手、虚拟歌手以及为视频游戏角色提供定制化语音。此外，该技术也被用于音频内容的创作与编辑，为多媒体内容制作提供了新的创作工具。

衍生相关工作

该数据集催生了多项相关研究工作，如探索不同声码器的性能、改进音色转换算法以及扩展到多说话人转换等。相关研究进一步推动了音色转换技术的边界，为后续的语音合成研究提供了丰富的实践案例和理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集