StoryTTS

Name: StoryTTS
Creator: 上海交通大学计算机科学与工程系
Published: 2024-04-23 19:41:35
License: 暂无描述

arXiv2024-04-23 更新2024-06-21 收录

下载链接：

https://goarsenal.github.io/StoryTTS

下载链接

链接失效反馈

官方服务：

资源简介：

StoryTTS是由上海交通大学计算机科学与工程系创建的文本到语音合成数据集，包含从普通话讲故事节目中录制的61小时连续且富有韵律的语音，拥有精确的文本转录和丰富的文本表现力标注。数据集通过系统全面的标注框架，分析并定义了与语音相关的文本表现力的五个不同维度，包括修辞手法、句子模式、场景、模仿角色和情感色彩。StoryTTS旨在帮助未来的文本到语音合成研究充分挖掘丰富的内在文本和声学特征，特别适用于艺术作品的文本到语音合成研究。

StoryTTS is a text-to-speech synthesis dataset created by the Department of Computer Science and Engineering, Shanghai Jiao Tong University. It contains 61 hours of continuous and prosodically rich speech recorded from Mandarin storytelling programs, with precise text transcriptions and rich annotations of textual expressiveness. The dataset adopts a systematic and comprehensive annotation framework that analyzes and defines five distinct dimensions of speech-related textual expressiveness, namely rhetorical devices, sentence patterns, scenarios, imitated characters, and emotional tones. StoryTTS aims to facilitate future text-to-speech synthesis research to fully explore the abundant inherent textual and acoustic features, and is particularly applicable to text-to-speech synthesis research focused on artistic works.

提供机构：

上海交通大学计算机科学与工程系

创建时间：

2024-04-23

搜集汇总

数据集介绍

构建方式

在富有表现力的文本转语音研究领域，StoryTTS数据集的构建体现了对声学与文本表达双重维度的系统性关注。该数据集源自一部高质量的中文评书节目录音，通过语音活动检测工具对连续章节进行精细切分，获得总计60.9小时的语音数据。随后，利用自动语音识别技术生成初始文本转录，并经过人工逐行校对，修正识别错误并增强标点符号的准确性，最终形成33108条语音-文本对齐的高质量语料。

使用方法

该数据集主要服务于富有表现力的文本转语音模型的研究与开发。使用者可基于其精准的文本转录与多维度表达标注，训练模型以学习文本中隐含的韵律、情感及角色特征。在模型架构中，可通过嵌入层或专门的表达编码器引入这些标注信息，例如将类别标签转化为向量表示，或利用预训练语言模型提取情感色彩的上下文分布。实验表明，整合这些标注能有效提升合成语音的表现力，为探索文本与语音间的深层关联提供了可靠的数据基础。

背景与挑战

背景概述

在语音合成技术不断演进的背景下，表达性文本转语音（ETTS）研究逐渐聚焦于文本内在表达力的挖掘。StoryTTS数据集由上海交通大学的研究团队于2024年构建，旨在解决艺术作品中文本表达力长期被忽视的问题。该数据集基于普通话评书表演的高质量录音，涵盖61小时的连续语音，并首次系统性地从语言学、修辞学等维度标注了文本表达力的五个方面：修辞手法、句式、场景、模仿角色和情感色彩。StoryTTS不仅为ETTS研究提供了丰富的声学与文本资源，还通过大语言模型辅助的批注框架，推动了表达性语音合成向更深层次的文本理解迈进。

当前挑战

StoryTTS所针对的表达性文本转语音领域，核心挑战在于如何从复杂艺术文本中准确提取并建模与语音相关的文本表达特征。传统方法依赖粗粒度的语义表示或基础句法结构，难以捕捉评书等表演形式中丰富的修辞、角色模仿和情感变化。在数据集构建过程中，研究团队面临语音识别错误率较高、文本标点缺失以及表达力维度定义与标注的复杂性。通过结合大语言模型的少样本学习策略，团队虽实现了高效批注，但仍需应对标注一致性、多维度特征融合以及声学与文本表达力协同建模的持续挑战。

常用场景

经典使用场景

在富有表现力的文本转语音研究领域，StoryTTS数据集常被用于探索文本内在表达特征与语音韵律之间的深层关联。该数据集源自高质量的中文评书表演录音，其文本富含修辞手法、句式变化和角色模仿等文学元素，为研究者提供了同时具备丰富声学和文本表达标注的珍贵资源。通过该数据集，学者能够系统分析文本层面的五个表达维度——修辞手法、句式、场景、模仿角色和情感色彩——如何共同影响语音合成的表现力，从而推动表达性语音合成模型向更自然、更具情感感染力的方向发展。

解决学术问题

StoryTTS数据集有效解决了表达性语音合成研究中文本表达特征挖掘不足的学术难题。传统研究多依赖预训练语言模型的粗粒度语义表征或基础句法结构，未能对语音相关的文本表达性进行全面探索。该数据集通过系统性的标注框架，首次将文本表达性细分为五个语言学维度，并利用大语言模型进行批量标注，为模型提供了细粒度、多维度的文本表达信息。实验表明，融入这些标注能显著提升合成语音的表达力，这证实了深入挖掘文本内在表达特征对于生成自然、富有情感的语音至关重要，填补了该领域长期存在的文本表达分析空白。

实际应用

在实际应用层面，StoryTTS数据集为开发高性能的表达性语音合成系统提供了关键训练数据。其应用场景广泛涵盖有声读物自动生成、虚拟角色配音、交互式故事讲述以及辅助语言学习工具等领域。例如，在数字出版行业，基于该数据集训练的模型能够自动将小说文本转换为带有恰当语气、节奏和角色声音的语音，极大丰富了听书体验。在教育和娱乐领域，系统可根据文本中标注的情感色彩和角色类型，动态调整语音的语调与风格，创造出更具沉浸感和表现力的音频内容，推动了人机交互体验向更自然、更富情感的方向演进。

数据集最近研究