StoryTTS
收藏github2024-04-23 更新2024-05-31 收录
下载链接:
https://github.com/X-LANCE/StoryTTS
下载链接
链接失效反馈官方服务:
资源简介:
StoryTTS是由上海交通大学构建的一个具有丰富声学和文本表达性的中文文本到语音(TTS)数据集。该数据集包含了61小时的连续且富有韵律的语音,并且配有精确的文字转录和丰富的文本表达性注释。数据源自普通话讲故事节目的录音,通过系统全面的标注框架,研究人员对文本表达性进行了深入分析,定义了五个不同的维度:修辞手法、句子结构、场景、模仿角色和情感色彩,并利用大模型(LLMs)进行批量标注。该数据集对于希望提升TTS系统表达性的研究人员来说是一个宝贵的资源,它有助于推动TTS技术在表达性方面的研究和发展。
StoryTTS is a Chinese text-to-speech (TTS) dataset boasting rich acoustic and textual expressiveness, constructed by Shanghai Jiao Tong University. This dataset includes 61 hours of continuous, rhythmically vibrant speech, paired with precise textual transcriptions and comprehensive annotations of textual expressiveness. The data is derived from recordings of Mandarin storytelling programs. Through a systematic and comprehensive annotation framework, researchers conducted in-depth analyses of textual expressiveness, defining five distinct dimensions: rhetorical devices, sentence structures, scenarios, character imitations, and emotional tones. Batch annotation was carried out using large language models (LLMs). This dataset serves as a valuable resource for researchers seeking to improve the expressiveness of TTS systems, and it facilitates the advancement of research and development in expressive TTS technologies.
提供机构:
上海交通大学
创建时间:
2024-04-23
原始信息汇总
数据集概述
名称:StoryTTS
描述:StoryTTS是一个高度表达性的文本到语音数据集,包含从一位女性艺术家连丽如的普通话讲故事节目(评书)中录制的61小时连续且富有韵律的语音。该数据集不仅在声学上表达丰富,而且在文本上也具有丰富的表达性,配备了准确的文本转录和丰富的文本表达性标注。
数据集统计
- 数据集包含61小时的连续语音。
下载信息
- 语音数据可从Huggingface或ModelScope下载。
- 数据集仅供研究使用,下载默认同意许可协议。
文件描述
dataset/transcript:StoryTTS的转录文本,使用简体中文并包含标点符号。dataset/utt2dur:每个语音片段的持续时间(以秒计)。dataset/utt2spk:每个语音片段的说话人名称,即StoryTTS中唯一的说话人名称。dataset/label:StoryTTS的标注标签,格式为:utt-ID 句式(Sentence Pattern)|修辞手法(Rhetoric Device)|场景(Scene)|情感色彩(Emotional colors)|模仿人物(Imitated Characters)。dataset/prompt_claude2:Claude2的提示和指令。dataset/prompt_gpt4:GPT4的提示和指令。dataset/wav.scp:wav文件的路径,可能根据存储语音数据的位置而变化。
引用信息
@inproceedings{storytts, author={Sen Liu and Yiwei Guo and Xie Chen and Kai Yu}, title={{StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations}}, year={2024}, booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, pages={11521-11525}, doi={10.1109/ICASSP48485.2024.10446023} }
搜集汇总
数据集介绍

构建方式
StoryTTS数据集的构建基于一位女性艺术家连丽如(Lian Liru)的评书表演录音,涵盖了61小时的连续且富有韵律的语音数据。该数据集不仅包含了精确的文本转录,还附有丰富的文本表现力注释,这些注释详细记录了句式、修辞手法、场景、情感色彩及模仿人物等多维度信息。通过这种方式,StoryTTS旨在提供一个在声学和文本表现力方面都极为丰富的资源,以支持高度表现力的文本到语音转换研究。
特点
StoryTTS数据集的显著特点在于其高度表现力的语音数据和详尽的文本注释。该数据集不仅提供了连续的、具有丰富韵律的语音样本,还通过多维度的文本注释,如句式、修辞手法、场景、情感色彩及模仿人物等,增强了数据的表现力和多样性。这些特点使得StoryTTS成为研究文本到语音转换技术,特别是那些需要高度表现力和情感传达的应用场景的理想选择。
使用方法
使用StoryTTS数据集时,研究者可以下载包含语音数据和相关注释的文件。数据集的文件结构包括文本转录、每个话语的持续时间、说话者信息、注释标签以及语音文件的路径。研究者可以根据需要调整wav.scp文件中的路径以匹配本地存储位置。此外,数据集还提供了针对Claude2和GPT4的提示和指令,便于进行多模态研究和模型训练。使用时需遵守相关的许可协议,确保仅用于研究目的。
背景与挑战
背景概述
在自然语言处理与语音合成领域,StoryTTS数据集的诞生标志着对高度表现力文本到语音转换技术的深入探索。该数据集由Sen Liu、Yiwei Guo、Xie Chen和Kai Yu等研究人员于2024年创建,其核心研究问题在于如何通过丰富的文本表现力注释来提升语音合成的自然度和表现力。StoryTTS数据集包含了61小时的连续且富有韵律的普通话评书录音,由著名女艺术家连丽如(Lian Liru)演绎。这些录音不仅配备了精确的文本转录,还附有详尽的文本表现力注释,涵盖句式、修辞手法、场景、情感色彩及模仿人物等多个维度。这一数据集的推出,极大地推动了文本到语音合成技术在表现力和情感传达方面的研究进展。
当前挑战
尽管StoryTTS数据集在文本到语音合成领域展现了巨大的潜力,但其构建过程中仍面临诸多挑战。首先,如何确保录音的高质量和连续性,以捕捉评书表演中的细微韵律变化,是一项技术难题。其次,文本表现力注释的准确性和全面性要求极高,需要研究人员对评书艺术有深入的理解和细致的分析。此外,数据集的版权和使用限制也增加了其应用的复杂性,确保数据集仅用于研究目的,并遵守相关的许可协议,是使用该数据集时必须面对的法律和伦理挑战。
常用场景
经典使用场景
在自然语言处理领域,StoryTTS数据集因其丰富的文本表达性和情感标注而成为研究文本到语音合成(TTS)技术的经典资源。该数据集特别适用于开发能够生成高度表现力和情感丰富的语音合成系统,尤其是在需要模拟特定情感色彩和修辞手法的应用场景中。通过利用StoryTTS,研究人员可以训练模型以更准确地捕捉和再现文本中的情感和语调变化,从而提升语音合成的自然度和表现力。
实际应用
在实际应用中,StoryTTS数据集可广泛应用于各种需要高度表现力和情感丰富的语音合成场景,如虚拟助手、有声书制作、游戏角色配音以及情感支持系统等。通过使用StoryTTS训练的语音合成模型,可以生成更加自然和情感丰富的语音,从而提升用户体验。特别是在教育和娱乐领域,这种高度表现力的语音合成技术能够显著增强内容的吸引力和感染力,为用户提供更加沉浸式的体验。
衍生相关工作
基于StoryTTS数据集,研究人员已开展了一系列相关工作,包括但不限于情感语音合成模型的优化、多模态情感识别系统的开发以及跨语言语音合成技术的研究。这些工作不仅提升了语音合成技术的性能,还推动了情感计算和多模态交互领域的发展。此外,StoryTTS的丰富标注数据也为其他相关领域的研究提供了新的视角和方法,如情感分析、修辞学研究以及语音情感识别等。
以上内容由遇见数据集搜集并总结生成



