kokoro voice dataset

github2025-02-05 更新2025-02-10 收录

下载链接：

https://github.com/RobViren/kokovoicelab

下载链接

链接失效反馈

官方服务：

资源简介：

kokoro voice数据集，用于实验和创建插值新声音，管理数据库中的声音以供后续使用。

Kokoro Voice Dataset, which is utilized for conducting experiments and generating interpolated new voices, as well as managing the voices stored in the database for subsequent usage.

创建时间：

2025-02-05

原始信息汇总

KokoVoiceLab 数据集概述

数据集简介

应用程序：用于实验Kokoro声音模型的工具，可以进行声音插值和管理数据库中的声音以便后续使用。
数据源：使用sqlite查询从Kokoro声音数据集中选择不同的声音组。
功能特点：支持生成原始数据集中不存在的声音，并将这些声音插入数据库进行混合，创建更多独特声音。

样本示例

提供了极端女性、中间和极端男性的声音样本。

安装说明

推荐使用uv进行依赖管理。
安装uv：curl -LsSf https://astral.sh/uv/install.sh | sh
下载模型文件：uv run scripts/fetch_models.py
初始化声音数据库：uv run scripts/create_voice_db.py

使用示例

声音插值

生成高质量女性和男性美国英语声音的插值样本。
生成从极端男性到极端女性的新声音。

创建自定义声音

插入一个合成声音到数据库，该声音是源声音和目标声音的70%插值。

基本声音合成

使用数据库中的特定声音生成音频。

导出声音

以PyTorch张量文件(.pt)形式导出单个声音。
将所有声音导出到一个二进制文件(voices.bin)。

数据库模式

数据库包含的声音字段：name、gender、language、quality、training_duration、style_vector、is_synthetic、notes、created_at。

可用声音

声音列表：链接

搜集汇总

数据集介绍

构建方式

kokoro voice dataset 是通过运用sqlite查询，从现有 kokoro 声音数据集中选择两组不同的声音，进而利用这两组声音之间的差异来创建插值，从而生成原始数据集中不存在的声音。该数据集不仅包含了声音的元数据和风格向量，还通过特定的构建方法，实现了对声音特征如性别、语言、音质等的详细标注。

特点

本数据集的特点在于其独特的构建方式，允许合成超出原始模型特征的声音，并支持将这些合成声音插入数据库中，进而混合生成更多样化和独特化的声音。数据集涵盖了丰富的声音元数据，如唯一标识符、性别、语言、音质评分、训练时长、风格向量等，为声音的进一步处理和应用提供了基础。

使用方法

使用该数据集时，用户可以通过提供特定的查询语句来选择源声音和目标声音，进而生成介于两者之间的插值声音。此外，用户还可以通过调整插值范围和元数据，创建自定义声音，并可以将声音导出为PyTorch张量文件或二进制文件，以供其他应用程序使用或备份。

背景与挑战

背景概述

Kokoro Voice Dataset是由KokoVoiceLab团队开发的一个语音模型实验应用所使用的数据集。该数据集的创建旨在探索语音插值技术，并能够管理数据库中的声音以便后续使用。该数据集的构建时间为近期，由专业的研究团队负责，核心研究问题聚焦于如何通过语音插值技术生成新的、多样化的合成语音。在语音合成领域，该数据集的影响力逐渐显现，为相关研究提供了重要的数据支撑。

当前挑战

该数据集面临的挑战主要在于：1) 如何精确地合成介于两种语音之间的中间语音，特别是当这些语音在原数据集中不存在时；2) 构建过程中，确保语音质量和风格的准确性和一致性是一大挑战，尤其是在处理不同性别、语言和音质等级的语音时。此外，如何在保持语音自然度的同时，实现高效的声音数据库管理和查询，也是该数据集需要解决的问题。

常用场景

经典使用场景

Kokoro Voice Dataset 被广泛应用于语音合成与风格插值研究。该数据集允许研究人员通过SQLite查询选取不同的语音组，进而在这些组之间创建语音插值，甚至生成原数据集不存在的语音。其经典使用场景包括生成介于高质量美式英语和英式英语之间的语音样本，以探索语音的音调与口音变化。

衍生相关工作

基于Kokoro Voice Dataset，研究者们已经衍生出一系列相关工作，包括但不限于创建更加复杂的语音合成模型、开发新型语音风格转换算法以及构建大规模语音风格数据库。这些工作进一步拓宽了语音合成技术的应用范围，并推动了相关领域的科研进展。

数据集最近研究