five

Paralinguistic Speech Captions (ParaSpeechCaps)

收藏
arXiv2025-03-07 更新2025-03-08 收录
下载链接:
https://github.com/ajd12342/paraspeechcaps
下载链接
链接失效反馈
官方服务:
资源简介:
Paralinguistic Speech Captions (ParaSpeechCaps)是一个覆盖了59种独特风格标签的大型数据集,由德克萨斯大学奥斯汀分校和纽约大学共同创建。该数据集包括342小时的人工标注数据(PSC-Base)和2427小时的自动标注数据(PSC-Scaled)。数据集旨在通过丰富的风格标签来提升文本到语音合成的风格表现,包含说话人级别的内在标签和语句级别的情境标签。数据集创建过程中,首先通过众包方式收集了282小时语音的内在大规模标注数据,然后提出两种新颖的数据扩展方法,一种针对内在标签,一种针对情境标签,以自动扩展数据集规模。该数据集可应用于风格化文本到语音合成,解决语音合成中的风格控制问题。

Paralinguistic Speech Captions (ParaSpeechCaps) is a large-scale dataset covering 59 unique style labels, co-created by The University of Texas at Austin and New York University. It includes 342 hours of manually annotated data (PSC-Base) and 2427 hours of automatically annotated data (PSC-Scaled). This dataset aims to improve the stylistic performance of text-to-speech synthesis through rich style labels, and contains speaker-level intrinsic tags and utterance-level contextual tags. During the dataset construction, 282 hours of intrinsic large-scale annotated speech data were first collected via crowdsourcing, then two novel data expansion methods were proposed, one targeting intrinsic tags and the other targeting contextual tags, to automatically scale up the dataset size. This dataset can be applied to stylized text-to-speech synthesis, addressing the style control problem in speech synthesis.
提供机构:
德克萨斯大学奥斯汀分校计算机科学系, 纽约大学计算机科学与数据科学系
创建时间:
2025-03-07
搜集汇总
数据集介绍
main_image_url
构建方式
ParaSpeechCaps数据集的构建采用了人工作标注和自动标注相结合的方法。首先,通过众包的方式收集了282小时的人类标注数据(PSC-Base),包括对说话者身份相关的内在标签和对单个话语情境相关的情境标签的标注。然后,为了扩大数据集的规模,提出了两种新颖的数据扩展方法:一种是针对内在标签的感知说话者相似性模型,通过寻找与已标注内在标签的说话者相似的其他说话者,并传播他们的内在标签;另一种是针对情境标签的扩展方法,结合了表达性过滤、语义匹配和声学匹配三个步骤,以识别具有目标情境标签的实例。最后,使用文本语言模型将所有标注的样式标签转换为样式提示,用于模型的训练和评估。
使用方法
使用ParaSpeechCaps数据集时,首先需要将所有标注的样式标签转换为样式提示。然后,可以使用这些样式提示来训练和评估风格提示式语音合成(TTS)模型。为了减少数据集中的不平衡,在训练模型时,可以对VoxCeleb数据、Expresso和EARS数据进行上采样。在推理时,可以使用温度、重复惩罚和最大令牌数等参数来控制模型的输出。此外,还可以在推理时使用分类器自由引导来提高样式一致性。
背景与挑战
背景概述
Paralinguistic Speech Captions (ParaSpeechCaps) 是一个大规模的数据集,旨在为语音生成模型提供丰富的风格标签,以改善语音的合成质量。该数据集由德克萨斯大学奥斯汀分校计算机科学系和纽约大学计算机科学与数据科学系的研究人员于2025年3月首次介绍。ParaSpeechCaps 包含 59 种独特的风格标签,涵盖了与说话者身份相关的内在标签和描述单个话语的情境标签。数据集分为两个部分:342 小时的人工标注数据(PSC-Base)和 2427 小时的自动标注数据(PSC-Scaled)。该数据集的创建旨在解决现有大规模数据集仅包含基本标签的问题,并为语音生成模型提供更全面的风格控制能力。
当前挑战
ParaSpeechCaps 数据集面临的主要挑战包括:1) 收集丰富风格标签的大规模数据集,因为这样的数据集往往需要大量的人工标注,且现有的数据集要么规模有限,要么风格标签类型覆盖不足;2) 自动标注的准确性问题,尽管自动标注可以扩展数据集的规模,但如何确保自动标注的质量与人工标注相当是一个挑战;3) 多语言支持问题,目前 ParaSpeechCaps 仅支持英语数据,如何扩展到其他语言是一个未来的研究方向;4) 自动评估指标的缺乏,由于缺乏自动评估指标,目前主要依靠昂贵且主观的人类评估指标,这限制了实验的快速迭代和模型行为的精细分析。
常用场景
经典使用场景
ParaSpeechCaps数据集广泛应用于风格引导的文本到语音合成(TTS)模型中,以提升语音生成的多样性和自然度。通过提供丰富的风格标签,如音调、速度、情绪等,模型可以更精确地控制输出语音的风格,从而满足不同场景下的语音需求。
解决学术问题
该数据集解决了现有大规模数据集在风格标签类型覆盖范围有限的问题。ParaSpeechCaps包含59种独特的风格标签,涵盖了发音、语速、情绪等多个维度,使得研究者能够更全面地研究和开发风格引导的TTS模型。
实际应用
在实际应用中,ParaSpeechCaps数据集可用于开发个性化语音助手、语音转换、语音合成等应用。通过控制语音的风格,这些应用可以更好地适应不同的用户需求,提升用户体验。
数据集最近研究
最新研究方向
ParaSpeechCaps数据集的最新研究方向是扩展文本到语音合成模型中的风格控制。该数据集通过丰富的风格标签注释语音,涵盖了59种独特的风格标签,包括说话人级别的内在标签和语句级别的情境标签。研究人员首次提出了两种自动扩展丰富标签注释的方法,一种用于内在标签,另一种用于情境标签,并将数据集规模扩展到了2427小时。通过在ParaSpeechCaps数据集上微调Parler-TTS模型,研究者在风格一致性(+7.9%一致性MOS)和语音质量(+15.5%自然度MOS)方面取得了显著提升。此外,该数据集的自动标注数据质量得到了人工评估的验证,证明其与人工标注数据相当。ParaSpeechCaps数据集的发布为文本到语音合成模型的风格控制提供了新的可能性,并有望推动该领域的研究发展。
相关研究论文
  • 1
    Scaling Rich Style-Prompted Text-to-Speech Datasets德克萨斯大学奥斯汀分校计算机科学系, 纽约大学计算机科学与数据科学系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作