LibriTTS-VI

Name: LibriTTS-VI
Creator: 索尼集团
Published: 2025-09-19 13:43:15
License: 暂无描述

arXiv2025-09-19 更新2025-09-23 收录

下载链接：

https://github.com/daniilrobnikov/vits2

下载链接

链接失效反馈

官方服务：

资源简介：

LibriTTS-VI是一个基于LibriTTS-R数据集构建的公开语音印象数据集。该数据集包含11个感知尺度的语音印象，如低-高、男性-女性、清晰-沙哑、平静-焦躁、有力-虚弱等，旨在解决语音印象泄漏问题，提高语音合成中的可控性。数据集由索尼集团创建，为语音合成研究提供了宝贵的资源。

LibriTTS-VI is a public speech impression dataset constructed based on the LibriTTS-R dataset. This dataset encompasses 11 perceptual dimensions of speech impressions, including low-high, male-female, clear-hoarse, calm-agitated, strong-weak, and so on, which aims to address the issue of speech impression leakage and enhance the controllability in speech synthesis. It was created by Sony Group, providing a valuable resource for speech synthesis research.

提供机构：

索尼集团

创建时间：

2025-09-19

原始信息汇总

VITS2 数据集概述

基本信息

数据集名称: VITS2
核心贡献者: Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim
所属机构: SK Telecom, South Korea
论文链接: https://arxiv.org/abs/2307.16430
演示页面: https://vits-2.github.io/demo/

研究背景与目标

单阶段文本到语音模型近期被积极研究，其效果已超越两阶段流水线系统。
尽管已有单阶段模型取得重大进展，但在间歇性不自然、计算效率以及对音素转换的强依赖性方面仍有改进空间。
VITS2旨在通过改进先前工作的多个方面，高效合成更自然的语音。

关键改进

提出改进的结构和训练机制。
有效提升自然度、多说话人模型中语音特征的相似性以及训练和推理效率。
显著减少对音素转换的强依赖性，实现完全端到端的单阶段方法。

数据集支持

支持的数据集类型

LJ Speech数据集
- 用途：单说话人文本到语音
- 下载地址：https://keithito.com/LJ-Speech-Dataset/
VCTK数据集
- 用途：多说话人文本到语音
- 下载地址：https://www.kaggle.com/datasets/showmik50/vctk-dataset
自定义数据集
- 支持用户使用自有数据集进行训练。

数据预处理步骤

梅尔频谱图预处理：使用preprocess/mel_transform.py脚本。
文本预处理：参考datasets/ljs_base/prepare/filelists.ipynb。
数据集链接：需创建符号链接至指定目录（如DUMMY1、DUMMY2、DUMMY3）。

训练与推理

训练命令示例

LJ Speech: python train.py -c datasets/ljs_base/config.yaml -m ljs_base
VCTK: python train_ms.py -c datasets/vctk_base/config.yaml -m vctk_base
自定义数据集（多说话人）: python train_ms.py -c datasets/custom_base/config.yaml -m custom_base

推理示例

参考inference.ipynb和inference_batch.ipynb文件。

项目状态

当前为VITS2的非官方实现，仍在开发中。
预训练模型尚未发布（标记为“In progress”）。
音频样本已提供（基于LJSpeech数据集训练52,000步的结果）。

待完成事项

模型改进（如随机时长预测器、GAN损失等）。
功能扩展（如流式推理支持、超参数调优等）。
未来工作（如集成YourTTS零样本学习、NaturalSpeech模型更新等）。

依赖与致谢

基于PyTorch 2.0和Python 3.11环境。
使用espeak-ng进行音素转换。
感谢相关开源项目（如phonemizer、Tacotron等）的贡献。

搜集汇总

数据集介绍

构建方式

LibriTTS-VI数据集基于LibriTTS-R语料库构建，通过系统化的标注流程实现语音印象的量化评估。标注过程首先从训练集中随机选取100位说话人各一条语句，由四位具有语音合成评估经验的专业标注者依据明确的标注标准进行人工评分。标注标准涵盖10个主观维度（如低沉-高亢、男性化-女性化等），并辅以中性参考音频作为基准；第11个维度（语速快慢）则通过自动语音识别模型计算词汇速率并归一化至1-7分制。为提升数据覆盖面，对每条人工标注语句扩展100条声学特征相似的同一说话人语句，形成增强后的训练集。

使用方法

该数据集主要用于语音印象控制模型的训练与评估。使用时需先基于人工标注数据训练语音印象估计器，通过均方误差损失函数学习声学特征与印象向量的映射关系。在TTS模型微调阶段，可将目标印象向量输入控制模块，结合参考音频或独立语句进行解耦训练。评估时可采用客观指标（如VI-MSE、说话人相似度）和主观听测，通过调制实验分析各维度控制灵敏度。数据集特别支持零样本场景测试，其测试集包含39个训练未见的说话人，可验证模型泛化能力。

背景与挑战

背景概述

语音印象控制作为文本转语音技术的前沿方向，旨在通过非专家可感知的维度（如明亮度、冷静度）实现语音风格的精细化调控。LibriTTS-VI数据集由索尼集团于2025年发布，基于LibriTTS-R语料库构建，是首个公开的语音印象标注数据集。该数据集通过11个感知维度对语音进行量化，解决了此前领域内缺乏标准化数据的问题，为零样本语音合成研究提供了可复现的基准。其构建融合了多轮人工标注与数据增强策略，显著推动了语音可控性研究从自然度向可解释性控制的范式转移。

当前挑战

该数据集核心挑战集中于语音印象泄漏问题，即合成语音受参考音频固有印象干扰，难以独立控制目标印象。具体表现为基线模型在多重维度调控时出现RVI-MSE误差达0.22的泄漏间隙。构建过程中面临标注一致性难题，11个维度的平均Krippendorff's alpha仅0.464，且部分维度如冷静-焦躁维度标注一致性低至0.253。此外，LibriTTS-R语料库中叙述性与表达性语音的混合特性，要求设计新的数据关联策略以平衡说话人身份与语音印象的解耦。

常用场景

经典使用场景

在语音合成研究领域，LibriTTS-VI数据集为细粒度声纹印象控制提供了关键实验基础。该数据集通过标注11维感知尺度（如低沉-高亢、冷静-焦躁等），使研究人员能够构建基于目标印象向量的零样本语音合成系统。其经典应用场景包括在VITS架构中嵌入轻量级控制模块，通过对抗性学习和梯度反转层实现说话人身份与声纹印象的解耦，为可控语音生成提供标准化评估基准。

解决学术问题

该数据集有效解决了声纹印象控制中的两大核心难题：一是通过分离式训练策略缓解了参考音频的声纹泄漏问题，使合成语音更精准响应目标印象；二是填补了该领域公开标注数据的空白，为可复现研究奠定基础。其标注体系基于非专家感知维度，将主观印象量化为可计算的向量空间，推动了语音合成从自然度导向向精细化可控性的范式转变。

实际应用

在现实应用中，LibriTTS-VI支撑的声纹控制技术可赋能智能语音助手的情感化交互，使合成语音能根据场景需求动态调整冷静度或活力感。在无障碍通信领域，该技术能为言语障碍者定制符合个人特质的辅助语音；在媒体制作中，则可实现配音演员声线的精细化调整，避免重复录制成本。其无参考生成模式更适用于隐私敏感场景，通过纯数值控制生成虚拟说话人。

数据集最近研究