Paralinguistic Speech Captions (ParaSpeechCaps)

Name: Paralinguistic Speech Captions (ParaSpeechCaps)
Creator: 德克萨斯大学奥斯汀分校计算机科学系, 纽约大学计算机科学与数据科学系
Published: 2025-03-07 02:57:40
License: 暂无描述

arXiv2025-03-07 更新2025-03-08 收录

下载链接：

https://github.com/ajd12342/paraspeechcaps

下载链接

链接失效反馈

官方服务：

资源简介：

Paralinguistic Speech Captions (ParaSpeechCaps)是一个覆盖了59种独特风格标签的大型数据集，由德克萨斯大学奥斯汀分校和纽约大学共同创建。该数据集包括342小时的人工标注数据(PSC-Base)和2427小时的自动标注数据(PSC-Scaled)。数据集旨在通过丰富的风格标签来提升文本到语音合成的风格表现，包含说话人级别的内在标签和语句级别的情境标签。数据集创建过程中，首先通过众包方式收集了282小时语音的内在大规模标注数据，然后提出两种新颖的数据扩展方法，一种针对内在标签，一种针对情境标签，以自动扩展数据集规模。该数据集可应用于风格化文本到语音合成，解决语音合成中的风格控制问题。

Paralinguistic Speech Captions (ParaSpeechCaps) is a large-scale dataset covering 59 unique style labels, co-created by The University of Texas at Austin and New York University. It includes 342 hours of manually annotated data (PSC-Base) and 2427 hours of automatically annotated data (PSC-Scaled). This dataset aims to improve the stylistic performance of text-to-speech synthesis through rich style labels, and contains speaker-level intrinsic tags and utterance-level contextual tags. During the dataset construction, 282 hours of intrinsic large-scale annotated speech data were first collected via crowdsourcing, then two novel data expansion methods were proposed, one targeting intrinsic tags and the other targeting contextual tags, to automatically scale up the dataset size. This dataset can be applied to stylized text-to-speech synthesis, addressing the style control problem in speech synthesis.

提供机构：

德克萨斯大学奥斯汀分校计算机科学系, 纽约大学计算机科学与数据科学系

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

ParaSpeechCaps数据集的构建采用了人工作标注和自动标注相结合的方法。首先，通过众包的方式收集了282小时的人类标注数据（PSC-Base），包括对说话者身份相关的内在标签和对单个话语情境相关的情境标签的标注。然后，为了扩大数据集的规模，提出了两种新颖的数据扩展方法：一种是针对内在标签的感知说话者相似性模型，通过寻找与已标注内在标签的说话者相似的其他说话者，并传播他们的内在标签；另一种是针对情境标签的扩展方法，结合了表达性过滤、语义匹配和声学匹配三个步骤，以识别具有目标情境标签的实例。最后，使用文本语言模型将所有标注的样式标签转换为样式提示，用于模型的训练和评估。

使用方法

使用ParaSpeechCaps数据集时，首先需要将所有标注的样式标签转换为样式提示。然后，可以使用这些样式提示来训练和评估风格提示式语音合成（TTS）模型。为了减少数据集中的不平衡，在训练模型时，可以对VoxCeleb数据、Expresso和EARS数据进行上采样。在推理时，可以使用温度、重复惩罚和最大令牌数等参数来控制模型的输出。此外，还可以在推理时使用分类器自由引导来提高样式一致性。

背景与挑战

背景概述

Paralinguistic Speech Captions (ParaSpeechCaps) 是一个大规模的数据集，旨在为语音生成模型提供丰富的风格标签，以改善语音的合成质量。该数据集由德克萨斯大学奥斯汀分校计算机科学系和纽约大学计算机科学与数据科学系的研究人员于2025年3月首次介绍。ParaSpeechCaps 包含 59 种独特的风格标签，涵盖了与说话者身份相关的内在标签和描述单个话语的情境标签。数据集分为两个部分：342 小时的人工标注数据（PSC-Base）和 2427 小时的自动标注数据（PSC-Scaled）。该数据集的创建旨在解决现有大规模数据集仅包含基本标签的问题，并为语音生成模型提供更全面的风格控制能力。

当前挑战

ParaSpeechCaps 数据集面临的主要挑战包括：1) 收集丰富风格标签的大规模数据集，因为这样的数据集往往需要大量的人工标注，且现有的数据集要么规模有限，要么风格标签类型覆盖不足；2) 自动标注的准确性问题，尽管自动标注可以扩展数据集的规模，但如何确保自动标注的质量与人工标注相当是一个挑战；3) 多语言支持问题，目前 ParaSpeechCaps 仅支持英语数据，如何扩展到其他语言是一个未来的研究方向；4) 自动评估指标的缺乏，由于缺乏自动评估指标，目前主要依靠昂贵且主观的人类评估指标，这限制了实验的快速迭代和模型行为的精细分析。

常用场景

经典使用场景

ParaSpeechCaps数据集广泛应用于风格引导的文本到语音合成（TTS）模型中，以提升语音生成的多样性和自然度。通过提供丰富的风格标签，如音调、速度、情绪等，模型可以更精确地控制输出语音的风格，从而满足不同场景下的语音需求。

解决学术问题

该数据集解决了现有大规模数据集在风格标签类型覆盖范围有限的问题。ParaSpeechCaps包含59种独特的风格标签，涵盖了发音、语速、情绪等多个维度，使得研究者能够更全面地研究和开发风格引导的TTS模型。

实际应用

在实际应用中，ParaSpeechCaps数据集可用于开发个性化语音助手、语音转换、语音合成等应用。通过控制语音的风格，这些应用可以更好地适应不同的用户需求，提升用户体验。

数据集最近研究