LibriTTS-P

github2024-06-11 更新2024-06-13 收录

下载链接：

https://github.com/line/LibriTTS-P

下载链接

链接失效反馈

官方服务：

资源简介：

LibriTTS-P是一个基于LibriTTS-R的新数据集，包括说话风格和说话者特性的语句级描述（即提示）。该数据集通过混合方法构建提示注释：(1) 捕捉人类对说话者特性感知的手动注释和(2) 说话风格的合成注释。与现有的英语提示数据集相比，我们的数据集为LibriTTS-R中的所有说话者提供了更多样化的提示注释。实验结果表明，使用LibriTTS-P训练的TTS模型比使用传统数据集的模型具有更高的自然度，并且在风格标注任务中，使用LibriTTS-P的模型生成的准确词数是使用传统数据集的模型的2.5倍。

LibriTTS-P is a novel dataset derived from LibriTTS-R, encompassing utterance-level descriptions (i.e., prompts) of speaking styles and speaker characteristics. This dataset constructs prompt annotations through a hybrid approach: (1) manual annotations capturing human perceptions of speaker characteristics, and (2) synthetic annotations of speaking styles. Compared to existing English prompt datasets, our dataset offers more diverse prompt annotations for all speakers in LibriTTS-R. Experimental results demonstrate that TTS models trained with LibriTTS-P achieve higher naturalness than those trained with traditional datasets, and in style annotation tasks, models using LibriTTS-P generate 2.5 times more accurate words than models using traditional datasets.

创建时间：

2024-06-07

原始信息汇总

数据集概述

名称: LibriTTS-P

描述: LibriTTS-P是一个基于LibriTTS-R的新型语料库，包含针对每个话语的说话风格描述（即提示）和针对说话者的说话者特征提示。该语料库采用混合方法构建提示注释，包括手动注释和合成注释。与现有英语提示数据集相比，LibriTTS-P为所有LibriTTS-R的说话者提供了更多样化的提示注释。

文件详情

df1_en.csv, df2_en.csv, df3_en.csv: 分别包含注释者1、2、3的说话者提示数据。
excluded_spk_list.txt: 列出LibriTTS-R中性别明显不同的相同spk_id的语音样本，建议在使用本数据集时排除这些样本。
unannotated_spk_list.txt: 列出因无合适音频文件而未被注释的三个说话者的spk_id，建议在使用说话者提示时排除这些说话者。
style_prompt_candidates_v230922.csv: 包含风格提示键及其对应的选项，风格提示键由性别、音高、说话速度和响度四个风格因素组成。
metadata_w_style_prompt_tags_v230922.csv: 包含每个音频文件的元数据，包括音频文件名、说话者ID、性别、音高、说话速度、能量、内容提示、风格提示键等信息。

数据集应用

基于提示的可控TTS: 使用LibriTTS-P训练的TTS模型相比传统数据集训练的模型，自然度更高。
风格描述任务: 使用LibriTTS-P的模型在风格描述任务中生成的准确词数是传统数据集模型的2.5倍。

搜集汇总

数据集介绍

构建方式

LibriTTS-P数据集的构建基于LibriTTS-R，通过引入话语级别的描述（即提示）和说话者级别的提示来捕捉说话风格和说话者特征。构建过程中采用了混合方法：一方面，通过手动注释捕捉人类对说话者特征的感知；另一方面，通过合成注释对说话风格进行描述。这种双管齐下的策略确保了数据集的多样性和丰富性，使其在现有的英语提示数据集中脱颖而出。

特点

LibriTTS-P数据集的显著特点在于其提供了更为多样化的提示注释，涵盖了LibriTTS-R中所有说话者的风格和特征。这些注释不仅包括说话者的性别、音调、语速和音量等基本属性，还通过精细的元数据标签，如平均F0、对数F0的平均值和标准差等，提供了对音频文件的深入分析。此外，数据集还标记了无效话语，确保了数据的质量和可用性。

使用方法

使用LibriTTS-P数据集时，用户可以通过`metadata_w_style_prompt_tags_v230922.csv`文件获取每个音频文件的元数据，包括说话者的性别、音调、语速和音量等信息。结合`style_prompt_candidates_v230922.csv`文件，用户可以进一步获取与音频相关的风格提示。此外，建议在使用数据集时排除`excluded_spk_list.txt`和`unannotated_spk_list.txt`中列出的说话者，以确保数据的一致性和准确性。

背景与挑战

背景概述

LibriTTS-P数据集是在LibriTTS-R基础上构建的，专注于提供语音风格和说话者身份的提示信息。该数据集由Masaya Kawamura等研究人员于2024年创建，旨在通过混合方法（包括手动标注和合成标注）来捕捉说话者的特征和语音风格。LibriTTS-P不仅丰富了现有英语提示数据集的多样性，还显著提升了基于提示的可控文本到语音（TTS）模型的自然度和风格描述任务的准确性。该数据集的推出对语音合成和风格描述领域产生了深远影响，为相关研究提供了新的数据支持。

当前挑战

LibriTTS-P数据集在构建过程中面临多项挑战。首先，手动标注说话者特征和语音风格需要大量的人力和时间，且标注的一致性和准确性难以保证。其次，合成标注的生成依赖于复杂的算法和模型，如何确保其与实际语音特征的高度匹配是一个技术难题。此外，数据集中存在部分说话者ID相同但性别明显不同的情况，这增加了数据处理的复杂性。最后，如何有效利用数据集中的提示信息，以提升TTS模型和风格描述任务的性能，仍需进一步研究和优化。

常用场景

经典使用场景

LibriTTS-P数据集在文本到语音（TTS）和风格标注任务中展现了其经典应用。通过结合手动和合成注释，该数据集提供了丰富的说话风格和说话者特征提示，使得TTS模型能够生成更自然的语音。此外，在风格标注任务中，利用LibriTTS-P训练的模型在生成准确风格描述方面表现出色，显著提升了风格标注的精确度。

衍生相关工作

基于LibriTTS-P数据集，研究者们开展了多项相关工作，包括改进TTS模型的自然性评估方法、开发新的风格标注算法以及探索说话者特征对语音合成的影响。这些研究不仅深化了对语音合成技术的理解，还推动了相关领域的发展，如语音识别、情感分析和个性化语音生成等。

数据集最近研究