Arsenal/StoryTTS

Name: Arsenal/StoryTTS
Creator: Arsenal
Published: 2024-04-27 14:45:31
License: 暂无描述

Hugging Face2024-04-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Arsenal/StoryTTS

下载链接

链接失效反馈

官方服务：

资源简介：

StoryTTS是一个高度表达性的文本到语音数据集，包含丰富的声学和文本表达，来源于一个普通话评书节目的录音，由女性艺术家连丽如录制。该数据集包含61小时的连续且高度韵律的语音，配有准确的文本转录和丰富的文本表达注释。

提供机构：

Arsenal

原始信息汇总

数据集概述

名称: StoryTTS

描述: StoryTTS是一个高度表达性的文本到语音数据集，包含丰富的声学和文本表达性，来源于一位女性艺术家连丽如(Lian Liru)的普通话评书录音。该数据集包含61小时的连续且富有韵律的语音，配有准确的文本转录和丰富的文本表达性注释。

文件内容:

StoryTTS.zip: 包含StoryTTS的音频数据。
transcript: 包含StoryTTS的简体中文转录文本，带标点。

使用目的: 仅限于研究用途。

版权与许可: 数据集受cc-by-nc-4.0许可保护。下载此数据集默认同意签署许可协议。数据的所有权归原始所有者所有，原始所有者有权随时要求移除这些材料。

引用信息:

@inproceedings{storytts, author={Sen Liu and Yiwei Guo and Xie Chen and Kai Yu}, title={{StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations}}, year={2024}, booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, pages={11521-11525}, doi={10.1109/ICASSP48485.2024.10446023} }

搜集汇总

数据集介绍

构建方式

在语音合成领域，高质量且富有表现力的数据集对于推动技术发展至关重要。StoryTTS数据集的构建源于对传统艺术形式的数字化保存与利用，其核心素材取自评书艺术家连丽如女士的现场表演录音。研究团队通过专业设备录制了长达61小时的连续语音，确保了音频的高保真度与连贯性。随后，对原始音频进行了精细的文本转写，不仅提供了准确的简体中文文稿，还标注了丰富的韵律与表达特征，从而在声学与文本层面均构建了深度的表现力信息。

特点

作为高度表达性的文本转语音数据集，StoryTTS在多个维度展现出独特优势。其音频内容源自评书表演，天然蕴含强烈的情感起伏与节奏变化，为模型训练提供了丰富的韵律模板。数据集不仅包含精确的文本转录，还融入了细致的表达性标注，如语气、重音等，这在中文语音数据集中较为罕见。长达61小时的连续语音保证了语境的完整性，有助于模型学习更自然的连贯表达，为合成富有故事感的语音奠定了坚实基础。

使用方法

该数据集主要服务于语音合成领域的研究与开发，尤其适用于训练需要高度表现力的文本转语音模型。使用者可通过下载提供的压缩文件获取音频数据，并配合转录文本进行对齐与特征提取。在模型训练过程中，可充分利用其丰富的表达性标注来指导韵律与情感的生成。需要注意的是，数据集仅限研究用途，使用者需遵守相关许可协议，尊重原始所有者的权益，并随时关注数据可用性的更新。

背景与挑战

背景概述

在语音合成技术不断追求自然度与表现力的演进历程中，高表现力文本转语音数据集的构建成为关键瓶颈。StoryTTS数据集应运而生，由上海交通大学X-LANCE实验室的研究团队于2024年正式发布，其核心研究聚焦于捕捉并建模汉语口语叙事中丰富的韵律与情感表达。该数据集以著名评书艺术家连丽如女士长达61小时的连续叙事录音为基础，不仅提供了精确的文本转录，更创新性地引入了详尽的文本表现力标注，为探索语音合成中的韵律控制、情感迁移及叙事风格建模等前沿问题提供了珍贵的资源，显著推动了表达性语音合成领域的发展。

当前挑战

该数据集旨在应对表达性语音合成领域的核心挑战，即如何精确建模并生成蕴含复杂韵律变化和深层情感色彩的自然语音。具体而言，其构建过程面临双重困难：其一，在领域问题层面，评书艺术包含大量非规整的韵律模式、情感起伏和叙事节奏，如何从连续、高表现力的语音中有效解耦并标注这些多维度的表达性特征，是一项艰巨任务；其二，在数据构建层面，确保长达61小时音频与文本的精准对齐、设计一套能够系统刻画汉语叙事表达力的标注体系，并在尊重版权与艺术所有权的前提下完成数据集的合法合规发布，均构成了项目实施过程中的实质性挑战。

常用场景

经典使用场景

在语音合成领域，StoryTTS数据集以其高度表达性的评书风格语音，为研究富有韵律和情感变化的文本到语音转换提供了经典范例。该数据集常用于训练和评估表达性TTS模型，特别是在模拟叙事性话语的韵律结构、语调起伏和情感传递方面，为学术界探索自然、生动且富有表现力的语音合成技术奠定了数据基础。

衍生相关工作

围绕StoryTTS数据集，已衍生出多项经典研究工作，主要集中在表达性TTS建模、韵律标注体系构建和多风格语音合成等方面。这些工作不仅推动了基于注意力机制和生成对抗网络的韵律预测技术发展，还为中文叙事语音的风格迁移和情感控制提供了新的方法论，丰富了语音合成领域的研究图谱。

数据集最近研究