WenetSpeech4TTS

Name: WenetSpeech4TTS
Creator: 西北工业大学音频、语音与语言处理组（ASLP@NPU）
Published: 2024-06-09 20:32:42
License: 暂无描述

arXiv2024-06-09 更新2024-06-12 收录

下载链接：

https://huggingface.co/datasets/Wenetspeech4TTS/WenetSpeech4TTS

下载链接

链接失效反馈

官方服务：

资源简介：

WenetSpeech4TTS是一个专为文本到语音（TTS）任务优化的大型中文数据集，由西北工业大学音频、语音与语言处理组开发。该数据集包含12,800小时的音频-文本配对数据，分为Basic、Standard和Premium三个子集，分别包含7,226小时、4,056小时和945小时的高质量数据。数据集通过精细的音频质量增强、段落边界调整和多说话人检测等处理步骤创建，旨在为大型TTS模型提供高质量的训练和基准测试数据，解决现有中文TTS数据集规模小和多样性不足的问题。

WenetSpeech4TTS is a large-scale Chinese dataset specifically optimized for text-to-speech (TTS) tasks, developed by the Audio, Speech and Language Processing Group of Northwestern Polytechnical University. This dataset contains 12,800 hours of paired audio-text data, which is divided into three subsets: Basic, Standard and Premium, with 7,226 hours, 4,056 hours and 945 hours of high-quality data respectively. The dataset is constructed through a series of meticulous processing steps including audio quality enhancement, paragraph boundary adjustment and multi-speaker detection, among others. It aims to provide high-quality training and benchmark data for large-scale TTS models, addressing the issues of limited scale and insufficient diversity in existing Chinese TTS datasets.

提供机构：

西北工业大学音频、语音与语言处理组（ASLP@NPU）

创建时间：

2024-06-09

搜集汇总

数据集介绍

构建方式

WenetSpeech4TTS数据集的构建基于开源的WenetSpeech数据集，该数据集包含来自YouTube和播客的12,483小时中文语音数据。为了满足文本到语音（TTS）任务的需求，研究者对WenetSpeech进行了精炼，包括调整音段边界、提升音频质量以及消除每个音段内的说话人混合。通过更准确的转录过程和质量为基础的数据筛选过程，最终获得了包含12,800小时配对音频-文本数据的WenetSpeech4TTS语料库。此外，研究者还根据音段质量评分创建了不同大小的子集，以供TTS模型训练和微调使用。

特点

WenetSpeech4TTS数据集具有以下特点：1. 数据量大：包含12,800小时的配对音频-文本数据，是目前最大的中文TTS数据集之一。2. 多领域覆盖：数据来自多个领域，如有声读物、访谈、朗读等，具有广泛的代表性。3. 质量分级：根据音段质量评分，数据集被分为基本、标准和高级三个子集，方便用户根据需求选择合适的数据。4. 开源可用：数据集和相应的基准测试数据已公开可用，方便研究人员使用。

使用方法

WenetSpeech4TTS数据集的使用方法如下：1. 数据下载：用户可以从Hugging Face平台或其他公开渠道下载WenetSpeech4TTS数据集。2. 数据预处理：用户可以根据需要，对数据进行预处理，例如清洗、格式转换等。3. 模型训练：用户可以使用WenetSpeech4TTS数据集训练TTS模型，例如VALL-E和NaturalSpeech 2等。4. 模型评估：用户可以使用WenetSpeech4TTS数据集中的测试集评估TTS模型的性能，例如字符错误率、说话人嵌入余弦相似度、语音自然度等指标。5. 数据集扩展：用户可以根据需要，对WenetSpeech4TTS数据集进行扩展，例如添加新的语音数据、文本数据等。

背景与挑战

背景概述

随着大型文本到语音（TTS）模型的发展和训练数据的规模扩大，最先进的TTS系统已经取得了令人瞩目的性能。然而，现有的开源大型数据集大多为英语或多语种，缺乏用于中文TTS应用的大型数据集。WenetSpeech4TTS数据集应运而生，它是一个12,800小时的中文语音语料库，旨在解决中文TTS领域数据规模小、多样性低的问题。该数据集由西北工业大学音频、语音和语言处理小组（ASLP@NPU）创建，基于开源的WenetSpeech数据集进行加工和改进。WenetSpeech4TTS数据集通过调整语段边界、提升音频质量以及消除每个语段内的说话人混合，为TTS模型训练和微调提供了丰富的数据资源。该数据集的发布为中文TTS领域的研究和应用提供了重要的基础。

当前挑战

WenetSpeech4TTS数据集的创建面临着一系列挑战。首先，原始的WenetSpeech数据集存在音频质量不佳、语段分割不完整、说话人混合以及时间戳不准确等问题。为了解决这些问题，研究人员设计了自动化的处理流程，包括相邻语段合并、边界扩展、语音增强、多说话人检测、语音识别和质量筛选等步骤。其次，构建大规模的中文TTS语料库需要耗费大量的时间和资源，并且需要克服技术难题。最后，为了验证WenetSpeech4TTS数据集的有效性，研究人员在数据集上训练了VALL-E和NaturalSpeech 2两种大型TTS模型，并进行了主观和客观评估。这些挑战表明，构建高质量的中文TTS语料库是一项复杂的任务，需要研究人员不断探索和创新。

常用场景

经典使用场景

WenetSpeech4TTS数据集作为大型语音生成模型基准，广泛应用于中文文本到语音（TTS）任务的训练和评估。该数据集包含12,800小时的配对音频-文本数据，并细分为不同大小的子集，以适应不同质量和规模的TTS模型训练和微调需求。WenetSpeech4TTS已成为中文TTS领域的重要资源，为研究者和开发者提供了高质量的训练数据，推动了中文TTS技术的发展。

衍生相关工作

WenetSpeech4TTS数据集的发布和应用推动了中文TTS领域的进一步发展。基于WenetSpeech4TTS数据集，研究人员开发了一系列新的TTS模型和算法，并在多个国际竞赛中取得了优异成绩。此外，WenetSpeech4TTS数据集还为中文语音识别、语音增强、说话人识别等领域的算法研究提供了重要的数据支持，推动了中文语音技术的整体进步。

数据集最近研究