five

LibriTTS-P

收藏
arXiv2024-06-12 更新2024-06-14 收录
下载链接:
https://github.com/line/LibriTTS-P
下载链接
链接失效反馈
官方服务:
资源简介:
LibriTTS-P是由日本LY Corp.创建的一个基于LibriTTS-R的新型语音数据集,专注于提供详细的语音风格和说话者身份提示。该数据集包含373,868条记录,通过混合方法构建提示注释,包括手动和合成注释,以捕捉人类对说话者特征的感知和语音风格。数据集的创建过程涉及对基本频率、每秒音节数和响度的统计分析,以及使用大型语言模型进行数据增强。LibriTTS-P主要应用于基于提示的可控文本到语音转换(TTS)和风格标题生成,旨在提高TTS模型的自然度和风格描述的准确性。

LibriTTS-P is a novel speech dataset developed by LY Corp. of Japan, which is built upon LibriTTS-R and focuses on providing detailed speech style and speaker identity prompts. This dataset comprises 373,868 records, and its prompt annotations are constructed through a hybrid methodology integrating manual and synthetic annotations to capture human perceptions of speaker traits and speech styles. The development process of this dataset includes statistical analyses of fundamental frequency, syllables per second, and loudness, as well as data augmentation employing large language models (LLMs). LibriTTS-P is mainly utilized for prompt-based controllable text-to-speech (TTS) and style caption generation, with the objective of improving the naturalness of TTS models and the accuracy of style descriptions.
提供机构:
LY Corp., 日本
创建时间:
2024-06-12
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成领域,高质量的数据标注对于提升模型性能至关重要。LibriTTS-P数据集的构建采用了混合标注策略,以增强其标注的多样性和准确性。该数据集基于LibriTTS-R,通过人工标注和合成标注相结合的方式,为每段语音添加了风格提示和说话人提示。具体而言,风格提示通过分析语音的基本频率、语速和响度等统计特征,自动划分为五个等级,并利用预定义模板转化为自然语言描述;说话人提示则由专业标注员根据感知词和印象词手动标注,以捕捉说话人的身份特征。此外,通过大型语言模型进行数据增强,进一步丰富了提示的多样性。
特点
LibriTTS-P数据集在语音合成与风格描述任务中展现出显著优势,其特点主要体现在标注的全面性和多样性上。该数据集不仅包含针对语音风格的详细描述,如音高、语速和响度,还首次引入了说话人身份提示,涵盖了人类对说话人特征的感知与主观印象。相较于现有数据集,LibriTTS-P提供了更广泛的标注覆盖,支持所有LibriTTS-R中的说话人,且标注数量达到373,868条,远超同类资源。这种双重提示结构使得数据集能够更精细地刻画语音的丰富特性,为可控语音合成和风格描述等任务提供了坚实的数据基础。
使用方法
LibriTTS-P数据集在语音技术研究中具有广泛的应用价值,尤其适用于基于提示的可控语音合成和风格描述任务。在语音合成方面,研究人员可以利用数据集中的风格提示和说话人提示,训练模型以生成符合特定描述的语音,从而提升合成语音的自然度和可控性。实验表明,使用LibriTTS-P训练的模型在自然度评分上显著优于传统数据集。在风格描述任务中,该数据集支持模型从语音中自动生成准确的文本描述,生成准确词汇的数量达到传统数据集的2.5倍。用户可通过公开的GitHub仓库访问数据集,并参考相关论文中的实验设置进行模型训练与评估。
背景与挑战
背景概述
随着语音合成技术向可控性与自然度深度演进,基于提示(prompt)的文本转语音模型成为研究前沿。在此背景下,日本LY公司研究团队于2024年推出了LibriTTS-P数据集,其核心目标在于为高质量语音库LibriTTS-R提供细粒度的说话风格与说话人身份的自然语言描述标注。该数据集通过融合人工标注的说话人特征感知词与基于统计的合成风格标注,构建了包含37万余条提示的大规模语料,显著提升了提示的多样性与覆盖度。LibriTTS-P的发布,为可控语音合成、风格描述生成等任务提供了关键数据支撑,推动了语音生成模型向更精准、更人性化的方向发展。
当前挑战
LibriTTS-P致力于解决可控语音合成中提示标注的多样性与准确性挑战。在领域层面,现有数据集往往局限于风格描述,缺乏对说话人身份特征的刻画,且标注规模有限,难以覆盖人类语音的丰富特性。在构建过程中,研究团队面临双重挑战:其一,说话人身份感知具有高度主观性,需通过专业标注员进行人工标注,但个体感知差异导致标注一致性难以保证,如分析显示不同标注员对同一说话人的印象词选择存在显著分歧;其二,风格标注虽可自动化生成,但基于离散等级与模板句的合成方法难以捕捉语音的动态变化与自由文本描述的灵活性,限制了提示的自然表达与细致控制能力。
常用场景
经典使用场景
在语音合成技术领域,LibriTTS-P数据集主要应用于基于提示词的可控文本转语音系统开发。该数据集通过提供包含说话风格和说话人身份的自然语言描述,使研究人员能够训练模型根据文本提示精确控制合成语音的韵律特征与音色属性。这种可控性为探索个性化语音生成提供了标准化实验平台,尤其在需要模拟特定说话风格或身份的研究中展现出核心价值。
实际应用
在实际应用层面,LibriTTS-P支撑的语音合成技术已渗透到多个垂直领域。在智能助手与虚拟人交互场景中,该系统能够根据用户指令动态调整语音的情感色彩与表达风格;在无障碍技术领域,可为有特殊需求的用户定制个性化语音方案;在多媒体内容创作中,则能高效生成符合角色设定的配音素材。这些应用显著提升了人机交互的自然度与用户体验的个性化水平。
衍生相关工作
基于LibriTTS-P的丰富标注,学术界衍生出多项经典研究工作。PromptTTS++框架利用该数据集的说话人提示实现了身份感知的语音合成控制;StyleCap模型则将其应用于语音风格描述生成任务,开创了语音内容自动标注的新范式。这些工作共同构建了从语音理解到语音生成的完整技术链条,为后续研究如多模态语音编辑、跨语言风格迁移等方向奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作