TextrolSpeech

Name: TextrolSpeech
Creator: 浙江大学
Published: 2023-08-28 17:06:32
License: 暂无描述

arXiv2023-08-28 更新2024-06-21 收录

下载链接：

https://sall-e.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

TextrolSpeech是由浙江大学创建的大型开放源代码语音情感数据集，包含330小时的语音数据和236,220对自然文本风格提示。该数据集通过多阶段提示编程方法生成，涵盖五种风格因素，包括性别、音高、语速、音量和情感，旨在推动文本可控TTS系统的发展。数据集的创建过程中，整合了LibriTTS和VCTK数据集，并额外收集了多个情感数据集以丰富情感内容。TextrolSpeech的应用领域主要集中在提高TTS系统的风格控制能力和情感表达，特别是在情感效果的领域。

TextrolSpeech is a large-scale open-source speech emotion dataset developed by Zhejiang University, which contains 330 hours of speech data and 236,220 pairs of natural text-style prompts. Generated via a multi-stage prompt programming approach, this dataset covers five stylistic factors including gender, pitch, speech rate, volume, and emotion, aiming to advance the development of text-controllable TTS systems. During its construction, LibriTTS and VCTK datasets were integrated, and multiple additional emotion datasets were collected to enrich the emotional content. The main application fields of TextrolSpeech focus on improving the style control and emotional expression capabilities of TTS systems, especially in the domain of emotional speech effects.

提供机构：

浙江大学

创建时间：

2023-08-28

搜集汇总

数据集介绍

构建方式

TextrolSpeech数据集的构建基于对大规模自然语言文本描述与语音样本的配对。研究团队通过整合LibriTTS和VCTK数据集的清洁部分，并引入ESD、TESS、MEAD、SAVEE和MESS等情感数据集，以确保情感内容的多样性。随后，利用GPT-3.5-TURBO模型进行多阶段提示编程，生成丰富的自然语言风格描述，最终形成了包含236,220对风格提示与语音样本的庞大数据集。

特点

TextrolSpeech数据集的显著特点在于其大规模、多说话人和丰富的自然语言描述。该数据集不仅涵盖了330小时的语音数据，还提供了500种不同的自然语言风格描述，每种风格包含五个风格因子：性别、音高、语速、音量和情感。此外，数据集的开放性使得其成为推动文本可控语音合成系统发展的宝贵资源。

使用方法

TextrolSpeech数据集适用于开发和评估文本可控语音合成模型。研究者可以利用该数据集训练模型，使其能够根据自然语言文本提示生成具有特定风格的语音。具体使用时，可以将数据集分为训练集、验证集和测试集，采用如Salle这样的架构进行模型训练，并通过MOS评分等指标评估模型在语音质量和风格相似度方面的表现。

背景与挑战

背景概述

近年来，可控文本到语音（TTS）合成技术引起了广泛关注。传统的TTS方法依赖于用户提供特定的风格因子值或选择符合要求的参考语音，这些方法不仅耗时且用户友好性差。为了解决这些问题，浙江大学和华为云的研究团队提出了TextrolSpeech数据集，这是首个大规模的带有丰富文本属性的语音情感数据集。该数据集包含236,220对自然文本描述的风格提示和相应的语音样本，旨在推动文本可控TTS系统的发展。通过多阶段提示编程方法，研究团队利用GPT模型生成了大量自然的风格描述，显著提升了数据集的多样性和实用性。

当前挑战

TextrolSpeech数据集的构建面临多重挑战。首先，缺乏高质量、大规模的开放源代码文本风格提示语音数据集，这限制了高级文本可控TTS模型的开发。其次，数据收集和预处理过程中，如何确保情感内容的丰富性和准确性是一个难题。此外，提示编程过程中，如何生成多样且符合实际场景的文本描述，避免模型学习偏差，也是一个重要的挑战。最后，构建高效的文本可控TTS模型，如Salle，需要在音频编解码和语言模型之间找到平衡，以实现高质量的语音合成。

常用场景

经典使用场景

TextrolSpeech数据集在可控文本到语音（TTS）领域中具有经典应用场景，主要体现在其能够通过自然语言文本描述来控制语音生成的风格。该数据集包含了236,220对风格提示文本及其对应的语音样本，涵盖了性别、音调、语速、音量和情感等五个风格因素。通过这种丰富的文本描述，研究者可以训练模型以生成符合特定风格要求的语音，从而在语音合成系统中实现更精细的风格控制。

实际应用

在实际应用中，TextrolSpeech数据集可以广泛应用于个性化语音助手、有声读物生成、虚拟角色对话系统等领域。例如，在个性化语音助手中，用户可以通过输入特定的文本风格提示，定制助手的语音输出，使其更符合个人偏好或特定场景需求。此外，该数据集还可用于开发更具表现力的有声读物，通过调整语音风格来增强故事的情感表达。

衍生相关工作

基于TextrolSpeech数据集，研究者们开发了多种先进的TTS模型，如Salle模型，该模型利用音频编解码器代码作为中间表示，显著提升了语音生成的多样性和质量。此外，该数据集还激发了关于如何更有效地利用自然语言提示进行风格控制的进一步研究，推动了可控TTS领域的技术进步。未来，这些工作有望在更多实际应用场景中得到验证和推广。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集