奶龙语音克隆数据集

github2026-04-08 更新2026-04-09 收录

下载链接：

https://github.com/pengyichen2026/NaiLong-Voice-Clone

下载链接

链接失效反馈

官方服务：

资源简介：

数据集按处理阶段分为四部分：1. `raw_audio` (原始采样)：使用 Audacity 直接对视频素材进行录音，格式为 44.1kHz, 16-bit, Stereo。包含背景音、特效及多角色对话的非结构化原片素材。2. `vocal_only` (人声分离)：从 `raw_audio` 中使用 UVR5 的 MDX-NET 模型剥离背景音乐与噪音。3. `sliced_vocal` (自动化切片)：基于停顿检测、音色突变及总时长控制，将 `vocal_only` 自动化切分为一系列短音频。4. `nailong_selected` (精选集)：该数据集可最终用于模型训练与微调，其由人工精选部分和选择器补充部分构成。

The dataset is divided into four parts based on processing stages: 1. `raw_audio` (Raw Sampling): Directly recorded from video source materials using Audacity, with specifications of 44.1kHz sampling rate, 16-bit bit depth, and stereo channel layout. It contains unstructured raw footage with background sounds, sound effects, and multi-character dialogues. 2. `vocal_only` (Vocal Separation): Background music and noise are stripped from the `raw_audio` dataset using the MDX-NET model from UVR5. 3. `sliced_vocal` (Automated Slicing): The `vocal_only` audio is automatically segmented into a series of short audio clips based on pause detection, timbre mutation, and total duration control. 4. `nailong_selected` (Selected Collection): This dataset is ultimately intended for model training and fine-tuning, and it is composed of a manually selected portion and a supplementary portion selected by a selector.

创建时间：

2026-04-02

原始信息汇总

奶龙语音克隆数据集（NaiLong-Voice-Clone）概述

数据集基本信息

数据集名称：奶龙语音克隆数据集
数据集地址：https://huggingface.co/datasets/pengyichen/NaiLong-Voice-Clone
国内镜像地址：https://hf-mirror.com/datasets/pengyichen/NaiLong-Voice-Clone
关联模型仓库：https://huggingface.co/pengyichen/NaiLong-Voice-Clone

数据集内容与结构

数据集按处理阶段分为以下四个部分：

1. raw_audio（原始采样）

处理方式：使用 Audacity 直接对视频素材进行录音。
技术规格：44.1kHz, 16-bit, Stereo。
内容说明：包含背景音、特效及多角色对话的非结构化原片素材，是整个流水线的起点。

2. vocal_only（人声分离）

处理方式：从 raw_audio 中使用 UVR5 的 MDX-Net 模型剥离背景音乐与噪音。
内容说明：利用 MDX-Net 模型提取出干净的人声轨道，为后续切片提供高信噪比素材。

3. sliced_vocal（自动化切片）

处理方式：基于停顿检测、音色突变及总时长控制，将 vocal_only 自动化切分为一系列短音频。
内容说明：主要意义是为了后续通过选择器筛选出其中是“纯正奶龙”的片段。

4. nailong_selected（精选集）

该数据集可最终用于模型训练与微调，其由两部分构成：

人工精选部分：从 vocal_only 中手动挑选的优质奶龙音色参考音频（44.1kHz, Stereo）。
选择器补充部分：利用选择器 selector.py，以第一部分得到的奶龙参考音频为基础，通过迭代标记扩散，从 sliced_vocal 中检索出高置信度片段，并经人工二次核验挑选得到最终音频集（32kHz, Mono）。

配套工具：音频选择器 (selector.py)

本仓库提供一份通用的音频筛选工具 selector.py。

核心功能

筛选逻辑：根据 reference 文件夹中存放的特定角色参考音频，将 sliced_vocal 当中“大概率是纯该特定角色”的音频筛选出来。
全路径提取：提取 reference 和 sliced_vocal 内部的任意层级子文件夹。
带路径输出：输出结果时，会在文件名中体现其在 sliced_vocal 目录当中的相对路径，防止同名文件冲突并方便数据溯源。
格式兼容：支持 .wav, .mp3, .flac, .m4a, .ogg, .opus 等多种主流音频格式。

使用方法

安装依赖：pip install -r requirements.txt
环境要求：处理 .mp3, .m4a, .opus 等压缩格式需预装 FFmpeg。
放置数据：将参考音频放入 reference 文件夹，待筛选切片放入 sliced_vocal 文件夹。
运行程序：运行 selector.py，结果将输出至 preselected 文件夹。

关键配置参数

SEED_DIR: 存放“特定角色”参考音频的路径（默认：reference）。
POOL_DIR: 存放切割好数据集的路径（默认：sliced_vocal）。
OUTPUT_DIR: 存放程序筛选结果的路径（默认：preselected）。
THRESHOLDS: 迭代筛选的相似度阈值序列。
AUDIO_EXTENSIONS: 支持的音频文件后缀。
DECAY_FACTOR: 迭代过程中新加入音频对目标音色特征向量的贡献权重衰减因子。

数据集用途

该数据集用于基于 GPT-SoVITS 的 v2proplus 预训练模型进行微调，以得到最终的奶龙语音克隆模型。nailong_selected 精选集可直接用于模型训练。

搜集汇总

数据集介绍

构建方式

在语音克隆领域，高质量数据集的构建是模型性能的基石。奶龙语音克隆数据集的构建遵循一套严谨的多阶段流水线。初始阶段，通过Audacity工具从视频素材中直接录制原始音频，采样率为44.1kHz，格式为16位立体声，保留了包含背景音效和多角色对话的非结构化素材。随后，利用UVR5中的MDX-Net模型进行人声分离，从原始音频中剥离背景音乐与噪音，获得高信噪比的纯净人声轨道。接着，基于停顿检测和音色突变等声学特征，对分离后的人声进行自动化切片，生成一系列短音频片段。最终，通过结合人工精选与自动化工具筛选，形成用于模型微调的精炼数据集，其中自动化筛选工具以迭代标记扩散算法，从切片池中检索出高置信度的目标角色音频。

特点

该数据集在语音合成领域展现出鲜明的技术特色。其核心价值在于提供了一套经过深度处理的、专注于单一角色“奶龙”的高质量语音素材。数据集经过人声分离处理，确保了语音信号的纯净度，有效降低了背景噪声对克隆模型的干扰。自动化切片机制将长音频分割为语义连贯的短单元，为模型训练提供了结构化的输入。尤为突出的是，最终的精炼集合融合了人工筛选的权威性与自动化工具的效率，通过迭代式相似度匹配与人工核验的双重保障，确保了数据样本在音色一致性和内容代表性上的高度可靠性，为生成高保真度的语音克隆模型奠定了坚实的数据基础。

使用方法

该数据集及其配套工具为语音克隆模型的开发与应用提供了完整的解决方案。数据集可直接用于GPT-SoVITS等语音合成框架的模型微调，用户需从Hugging Face平台下载完整的权重文件与精选音频集。项目提供的高性能推理应用`app.py`，支持将微调后的模型快速部署为Web服务，实现极速语音合成与超低延迟流式输出两种生成模式。同时，附带的通用音频选择器`selector.py`工具，允许研究者根据自身需求进行个性化配置，通过设定相似度阈值与衰减因子等参数，从自有音频库中自动化筛选特定角色的语音片段，极大地扩展了该方案在构建其他角色语音数据集时的适用性与灵活性。

背景与挑战

背景概述

奶龙语音克隆数据集是面向语音合成领域的一项专门资源，旨在为特定角色——奶龙——构建高质量的音色克隆模型。该数据集由研究人员彭奕忱等人于近期创建并开源，依托于Hugging Face等平台进行分发。其核心研究问题聚焦于如何从非结构化的原始视频素材中，系统性地提取、净化和筛选出纯净且具有代表性的角色语音片段，以支持基于GPT-SoVITS框架的语音克隆模型微调。该数据集的发布，为角色定制化语音合成提供了从数据准备到模型部署的完整范例，显著降低了高质量语音克隆的技术门槛，对推动个性化语音交互、内容创作及多媒体应用具有积极的实践意义。

当前挑战

该数据集致力于解决角色特定语音克隆的挑战，其核心在于从包含背景音乐、噪音及多角色对话的复杂音频源中，精准分离并识别出目标角色的纯净语音。这要求模型具备强大的音色辨识与分离能力，以应对音色相近角色干扰、环境噪声污染以及语音情感与语调的多样性。在构建过程中，挑战主要体现在数据处理的多个阶段：原始音频需经历高质量的人声分离，以去除背景音效；自动化切片需平衡停顿检测与音色一致性的权衡，避免语音断裂或包含无关片段；最终的精选环节则依赖迭代式相似度检索与人工核验相结合的策略，以确保数据集的纯净度与代表性，整个过程对算法精度与人工标注成本提出了较高要求。

常用场景

经典使用场景

在语音合成与克隆领域，奶龙语音克隆数据集为特定角色音色建模提供了高质量的训练素材。该数据集通过精细的预处理流程，包括原始音频采集、人声分离、自动化切片与精选筛选，构建了纯净且特征鲜明的奶龙角色语音库。研究者通常利用该数据集微调基于GPT-SoVITS架构的语音克隆模型，以实现对奶龙音色的高保真复现，支持极速合成与流式输出两种生成模式，为角色语音合成任务奠定了数据基础。

衍生相关工作

围绕该数据集，衍生出了一系列专注于语音克隆效率与质量提升的经典工作。基于GPT-SoVITS框架的微调模型实现了高相似度的奶龙语音生成，并配套开发了高性能推理应用与通用音频选择器工具。这些工作不仅优化了模型部署流程，还提供了自动化数据筛选的方法论，推动了语音克隆技术从研究到落地的完整工具链建设，为其他角色语音克隆项目提供了可借鉴的技术范式与工程实践。

数据集最近研究