MSceneSpeech

Name: MSceneSpeech
Creator: 浙江大学, 华为云
Published: 2024-07-19 11:36:48
License: 暂无描述

arXiv2024-07-19 更新2024-07-23 收录

下载链接：

https://speechai-demo.github.io/MSceneSpeech/

下载链接

链接失效反馈

官方服务：

资源简介：

MSceneSpeech是由浙江大学和华为云联合创建的高质量普通话语音合成数据集，旨在支持富有表现力的语音合成研究。该数据集包含约15小时的音频，涵盖聊天、新闻、问答和讲故事四种日常场景，每个场景包含多个发言者和多样化的韵律风格。数据集通过精心策划的脚本和专业录音艺术家的表演录制，以增强韵律建模和转换。MSceneSpeech主要应用于多风格语音合成和跨发言者风格转换，解决现有数据集在韵律控制上的局限性。

MSceneSpeech is a high-quality Mandarin speech synthesis dataset co-created by Zhejiang University and Huawei Cloud, aimed at supporting expressive speech synthesis research. The dataset encompasses approximately 15 hours of audio, covering four daily scenarios: chat, news, question-answering, and storytelling, with multiple speakers and diverse rhythmic styles in each scenario. The dataset was recorded with meticulously crafted scripts and performances by professional voice actors to enhance rhythmic modeling and transformation. MSceneSpeech is primarily applied to multi-style speech synthesis and cross-speaker style conversion, addressing the limitations of existing datasets in rhythmic control.

提供机构：

浙江大学, 华为云

创建时间：

2024-07-19

原始信息汇总

MSceneSpeech 数据集概述

数据集简介

MSceneSpeech 是一个高质量的单语种普通话多场景语音数据集，旨在为富有表现力的语音合成提供资源。该数据集包含了多个音频录制和文本，根据日常生活场景进行表演和录制。每个场景包括多个发言者和多样化的韵律风格，适合进行多发言者风格和韵律建模的语音合成。

数据集详情

场景分类

MSceneSpeech 数据集包含四个主要场景，具体描述如下：

Chat：非正式对话，互动讨论和相声。
QA：来自在线购物平台的问题和回答，以及与网站建设相关的问题。
News：中国国家电视台的新闻片段。
Story：面向儿童和成人的故事，包含多样化的讲述风格和主题。

请注意，前两个类别虽然是两人互动，但由一个发言者录制。

数据集统计

详细的数据集统计如下：

场景	发言者数量	总时长（小时）	片段数量
Chat	4	5.32	2162
News	2	2.06	747
QA	3	2.22	907
Story	4	3.35	1286

音频属性

不同场景的音频属性在速度、音高和能量上具有高度变异性，这些属性可以作为高度变异韵律的显著指标。

数据集演示

MSceneSpeech 的实用性不仅在于其韵律的丰富性，还在于不同韵律情境下声音音色的均匀性。这种双重特性使得 TTS 模型能够生成具有解耦音色和韵律的多样化语音输出。以下是不同场景的演示音频：

场景	发言者1音频	发言者2音频
Chat	音频链接	音频链接
News	音频链接	音频链接
QA	音频链接	音频链接
Story	音频链接	音频链接

搜集汇总

数据集介绍

构建方式

MSceneSpeech数据集的构建过程首先包括对日常生活场景的精心挑选，并为每个场景选择了与背景相符的文本。这些文本由专业录音艺术家根据内容进行富有表现力的表演，而非简单的朗读，以确保录音具有丰富的韵律变化。录音完成后，使用Whisper进行音频转写，并手动校对文本，以确保文本标注的准确性。音频剪辑的时长被控制在5到10秒之间，以便于使用。剪辑的依据包括句子的结束标志，如句号、问号等，以及逗号等标点符号。此外，还进行了自动语音识别校对，删除了文本相似度低于80%的片段，并进一步手动删除了少量对齐有问题的句子。最后，数据集被分为训练集和测试集，测试集由每个场景中一位演讲者的录音组成，其余数据则被分配到训练集中。

使用方法

使用MSceneSpeech数据集进行语音合成时，可以首先对模型进行预训练，然后在MSceneSpeech数据集上进行有监督的微调。微调过程中，模型的语音编码器和风格自适应编码器被固定，以便保留从预训练数据集中学习到的语言信息。其他模块的参数则被微调，以便学习丰富的韵律信息。在推理过程中，可以根据给定的音色参考音频和韵律参考音频生成相应的音色和韵律的音频样本。此外，还可以进行消融研究，以验证模型中各个模块的有效性。

背景与挑战

背景概述

随着语音合成技术的不断发展，生成更加自然、有节奏和富有表现力的语音已成为研究的热点。MSceneSpeech数据集应运而生，它是一个开源的高质量普通话语音合成数据集，旨在为语音合成研究提供资源。该数据集由浙江大学和华为云的研究人员于2024年发布，包含约15小时由专业人士录制的高质量音频，涵盖了聊天、新闻、问答和讲故事四种场景，每种场景都有不同的说话者和多样的语调风格。MSceneSpeech数据集的发布，为研究多说话者风格和语调建模提供了重要的数据支持，对推动语音合成技术的发展具有重要意义。

当前挑战

MSceneSpeech数据集的构建过程中面临了多个挑战。首先，如何确保数据集的多样性和覆盖面，使其能够适应不同的语音合成任务。其次，如何有效地进行语调建模，使其能够准确地捕捉和表达语音中的情感和节奏。此外，如何实现跨说话者风格迁移，使模型能够根据不同的语音样本生成相应的风格和语调。最后，如何平衡语调和音色的建模，使其能够独立地控制语音的音色和语调。这些挑战需要研究人员不断探索和创新，以推动语音合成技术的发展。

常用场景

经典使用场景

MSceneSpeech数据集主要用于表达性语音合成的研究。它包含了丰富的真实生活场景录音，可以用于训练语音合成模型，使其能够生成更自然、有节奏和表达性的语音。数据集中的每个场景都包括多个说话者和多样的语调风格，这使得它适合于需要多说话者风格和语调建模的语音合成。

解决学术问题

MSceneSpeech数据集解决了现有数据集在控制语调方面的局限性。它提供了一种开源的高质量普通话TTS数据集，包含了多样化的真实生活场景录音，这些录音是按照日常生活场景进行表演和录制的。每个场景都包括多个说话者和多样的语调风格，使得它适合于语音合成中的多说话者风格和语调建模。此外，MSceneSpeech数据集还提供了一个强大的基线，通过提示机制，可以有效地合成具有用户特定音色和场景特定语调的语音，这对于语音合成的研究具有重要的意义和影响。

实际应用

MSceneSpeech数据集的实际应用场景包括但不限于语音助手、语音合成、语音转换等。它可以用于训练语音合成模型，使其能够生成更自然、有节奏和表达性的语音，从而提高语音助手和语音合成系统的性能。此外，MSceneSpeech数据集还可以用于语音转换任务，例如将一种语音风格转换为另一种语音风格。

数据集最近研究