NaiLong-Voice-Clone

Hugging Face2026-04-06 更新2026-04-07 收录

下载链接：

https://huggingface.co/datasets/pengyichen/NaiLong-Voice-Clone

下载链接

链接失效反馈

官方服务：

资源简介：

奶龙语音克隆数据集专为奶龙（NaiLong）的音色克隆和GPT-SoVITS等TTS模型训练而设计。数据集按处理阶段分为四部分：1. `raw_audio`（原始采样），包含未经处理的原始音频素材，格式为44.1kHz, 16-bit, Stereo；2. `vocal_only`（人声分离），使用UVR5的MDX-NET模型从原始音频中剥离背景音乐和环境噪音，提取干净的人声轨道；3. `sliced_vocal`（自动化切片），基于停顿检测和音色突将人声切分为短音频片段；4. `nailong_selected`（精选集），包含人工精选的优质奶龙音色参考音频和通过选择器从切片中检索出的高置信度片段，最终音频集为32kHz, Mono。此外，数据集还提供了一个通用的音频筛选工具`selector.py`，用于从切片中筛选出特定角色的音频片段，支持多种音频格式，并允许用户自定义筛选参数。

创建时间：

2026-04-03

原始信息汇总

奶龙语音克隆数据集 (NaiLong Voice Clone Dataset) 概述

数据集基本信息

数据集名称：奶龙语音克隆数据集 (NaiLong Voice Clone Dataset)
许可协议：CC BY-NC-SA 4.0
主要用途：专用于奶龙 (NaiLong) 的音色克隆与 GPT-SoVITS 等 TTS 模型训练。

数据集内容与结构

数据集按处理阶段分为四个部分：

1. raw_audio (原始采样)

内容：包含背景音、特效及多角色对话的非结构化原片素材。
处理方式：使用 Audacity 直接对视频素材进行录音。
技术规格：格式为 44.1kHz, 16-bit, Stereo。
说明：是整个数据处理流水线的起点。

2. vocal_only (人声分离)

内容：从 raw_audio 中提取出的干净人声轨道。
处理方式：使用 UVR5 的 MDX-Net 模型剥离背景音乐 (BGM) 与环境噪音。
说明：为后续切片提供高信噪比素材。

3. sliced_vocal (自动化切片)

内容：由 vocal_only 自动化切分得到的一系列短音频。
处理方式：基于停顿检测、音色突变及总时长控制进行切片。
说明：主要意义是为了后续通过选择器选择其中是“完整奶龙”的片段。

4. nailong_selected (精选集，用于模型训练)

该数据集由两部分构成：

人工精选部分：从 vocal_only 中手动挑选的优质奶龙音色参考音频。技术规格为 44.1kHz, Stereo。
选择器补充部分：利用选择器 selector.py，以第一部分得到的奶龙参考音频为基础，通过迭代标记扩散，从 sliced_vocal 中检索出高置信度片段，并经人工二次核验挑选得到最终音频集。技术规格为 32kHz, Mono。

附带的音频选择器工具

除数据集外，本仓库还提供了一份通用的音频筛选工具 selector.py。

工具功能

核心功能：根据 reference 文件夹中存放的特定角色参考音频，将 sliced_vocal 当中“大概率是纯该特定角色”的音频筛选出来，放入 preselected 文件夹。
详细功能：
- 全路径提取：提取 reference 和 sliced_vocal 内部的任意层级子文件夹。
- 带路径输出：在输出结果时，文件名会体现其在 sliced_vocal 目录当中的相对路径，防止同名文件冲突并方便数据溯源。
- 兼容多种格式：支持 .wav, .mp3, .flac, .m4a, .ogg, .opus 等多种主流音频格式。

使用方法

安装依赖：pip install -r requirements.txt
环境要求：如需处理 .mp3, .m4a, .opus 等压缩格式，需确保系统已安装 FFmpeg。
放置数据：将参考音频放入 reference 文件夹，待筛选切片放入 sliced_vocal 文件夹。
运行程序：运行 selector.py，结果将输出至 preselected 文件夹。

个性化配置

用户可根据待处理数据集质量和角色音色辨识度等情况，在 selector.py 顶部的“配置区”进行参数调整。默认配置参数包括：

路径配置：SEED_DIR (reference), POOL_DIR (sliced_vocal), OUTPUT_DIR (preselected)。
相似度阈值：THRESHOLDS = [0.90,0.89,0.88,0.87,0.865,0.86,0.857,0.854,0.852,0.85]
支持音频格式：AUDIO_EXTENSIONS = (.wav, .mp3, .flac, .m4a, .ogg, .opus)
衰减比例：DECAY_FACTOR = 0.8

搜集汇总

数据集介绍

构建方式

在语音克隆技术蓬勃发展的背景下，奶龙语音克隆数据集的构建遵循了严谨的多阶段处理流程。其构建始于从视频素材中直接采录的原始音频，随后利用先进的UVR5 MDX-NET模型进行人声分离，有效剥离了背景音乐与环境噪音，获得了高信噪比的纯净人声轨道。接着，通过基于停顿检测与音色突变的自动化切片技术，将长音频切分为适于处理的短片段。最终，通过结合人工精选与基于迭代标记扩散算法的自动化选择器，从海量片段中筛选出高置信度的目标角色音频，并经人工核验形成用于模型训练的精选集，确保了数据的高质量与高纯度。

特点

该数据集的核心特征在于其精细化的分层结构与面向特定角色的高度针对性。数据集按处理阶段清晰划分为原始音频、人声分离、自动化切片及最终精选集四个部分，为研究者提供了从原始素材到训练数据的完整视图。其精选集融合了人工筛选的优质参考音频与算法辅助检索的高置信度片段，有效平衡了数据质量与规模。此外，数据集配套的通用音频选择器工具，支持多种音频格式并具备路径追溯功能，极大地提升了数据筛选的自动化程度与可复现性，为特定音色的克隆任务提供了强有力的数据支撑。

使用方法

为有效利用该数据集进行语音克隆模型训练，使用者首先需获取最终用于训练的`nailong_selected`精选音频集。这些音频已具备高纯净度的目标角色音色，可直接用于如GPT-SoVITS等TTS模型的训练流程。对于希望自定义筛选过程的研究者，数据集提供了配套的`selector.py`选择器工具。使用前需安装指定依赖并配置FFmpeg环境，随后将参考音频与待筛选切片分别置于指定目录，运行脚本即可自动筛选出疑似目标角色的片段。用户还可根据数据质量与角色辨识度，灵活调整脚本配置区中的相似度阈值与衰减因子等参数，以优化筛选结果。

背景与挑战

背景概述

随着语音合成技术的飞速发展，特定角色音色克隆成为语音人工智能领域的前沿研究方向。奶龙语音克隆数据集（NaiLong Voice Clone Dataset）应运而生，专为卡通角色“奶龙”的音色克隆与GPT-SoVITS等文本到语音模型训练而设计。该数据集由开源社区贡献，遵循CC-BY-NC-SA 4.0许可协议，其构建过程体现了从原始素材采集到精细化处理的完整流水线，旨在为个性化语音合成提供高质量、高保真的训练数据，推动角色驱动型语音合成技术的实用化进程。

当前挑战

该数据集致力于解决特定角色音色克隆中的核心挑战，即从多角色对话、背景音乐及环境噪音混杂的原始音频中，精准分离并提取目标角色的纯净音色。在构建过程中，面临多重技术难题：首先，人声分离阶段需利用UVR5的MDX-Net模型有效剥离非人声干扰，确保高信噪比；其次，自动化切片需基于停顿检测与音色突变分析，实现音频的智能分段；最后，通过迭代标记扩散与人工核验相结合的方式，从海量切片中筛选出高置信度的目标角色片段，这一过程对算法的鲁棒性及人工标注的精确性均提出了极高要求。

常用场景

经典使用场景

在语音合成与音色克隆领域，NaiLong-Voice-Clone数据集为特定角色奶龙的音色建模提供了结构化素材。该数据集通过原始音频采集、人声分离、自动化切片及精选处理，构建了高质量的单角色语音库，经典应用于GPT-SoVITS等端到端TTS模型的训练与微调，支持研究者基于少量参考音频实现高保真的音色复现与语音生成。

解决学术问题

该数据集针对音色克隆中数据稀缺与质量不均的学术挑战，提供了系统化的预处理流程与精选标注方法。它解决了非结构化多媒体素材中单角色语音提取的难题，通过人声分离与迭代选择技术，降低了背景噪声与多角色干扰，为语音合成研究提供了纯净、可靠的训练数据，推动了个性化TTS模型在数据效率与音质保真度方面的进展。

衍生相关工作

围绕该数据集衍生的经典工作包括音色特征提取算法的优化与跨角色迁移学习研究。研究者利用其结构化数据探索了基于参考音频的相似度匹配方法，并开发了迭代选择工具以扩展至其他音色克隆任务。这些工作进一步促进了低资源语音合成技术的发展，为开源社区提供了可复现的数据处理框架与模型训练范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集