five

WenetSpeech4TTS

收藏
arXiv2024-06-09 更新2024-06-12 收录
下载链接:
https://huggingface.co/datasets/Wenetspeech4TTS/WenetSpeech4TTS
下载链接
链接失效反馈
官方服务:
资源简介:
WenetSpeech4TTS是一个专为文本到语音(TTS)任务优化的大型中文数据集,由西北工业大学音频、语音与语言处理组开发。该数据集包含12,800小时的音频-文本配对数据,分为Basic、Standard和Premium三个子集,分别包含7,226小时、4,056小时和945小时的高质量数据。数据集通过精细的音频质量增强、段落边界调整和多说话人检测等处理步骤创建,旨在为大型TTS模型提供高质量的训练和基准测试数据,解决现有中文TTS数据集规模小和多样性不足的问题。

WenetSpeech4TTS is a large-scale Chinese dataset specifically optimized for text-to-speech (TTS) tasks, developed by the Audio, Speech and Language Processing Group of Northwestern Polytechnical University. This dataset contains 12,800 hours of paired audio-text data, which is divided into three subsets: Basic, Standard and Premium, with 7,226 hours, 4,056 hours and 945 hours of high-quality data respectively. The dataset is constructed through a series of meticulous processing steps including audio quality enhancement, paragraph boundary adjustment and multi-speaker detection, among others. It aims to provide high-quality training and benchmark data for large-scale TTS models, addressing the issues of limited scale and insufficient diversity in existing Chinese TTS datasets.
提供机构:
西北工业大学音频、语音与语言处理组(ASLP@NPU)
创建时间:
2024-06-09
搜集汇总
数据集介绍
main_image_url
构建方式
WenetSpeech4TTS数据集的构建基于开源的WenetSpeech数据集,该数据集包含来自YouTube和播客的12,483小时中文语音数据。为了满足文本到语音(TTS)任务的需求,研究者对WenetSpeech进行了精炼,包括调整音段边界、提升音频质量以及消除每个音段内的说话人混合。通过更准确的转录过程和质量为基础的数据筛选过程,最终获得了包含12,800小时配对音频-文本数据的WenetSpeech4TTS语料库。此外,研究者还根据音段质量评分创建了不同大小的子集,以供TTS模型训练和微调使用。
特点
WenetSpeech4TTS数据集具有以下特点:1. 数据量大:包含12,800小时的配对音频-文本数据,是目前最大的中文TTS数据集之一。2. 多领域覆盖:数据来自多个领域,如有声读物、访谈、朗读等,具有广泛的代表性。3. 质量分级:根据音段质量评分,数据集被分为基本、标准和高级三个子集,方便用户根据需求选择合适的数据。4. 开源可用:数据集和相应的基准测试数据已公开可用,方便研究人员使用。
使用方法
WenetSpeech4TTS数据集的使用方法如下:1. 数据下载:用户可以从Hugging Face平台或其他公开渠道下载WenetSpeech4TTS数据集。2. 数据预处理:用户可以根据需要,对数据进行预处理,例如清洗、格式转换等。3. 模型训练:用户可以使用WenetSpeech4TTS数据集训练TTS模型,例如VALL-E和NaturalSpeech 2等。4. 模型评估:用户可以使用WenetSpeech4TTS数据集中的测试集评估TTS模型的性能,例如字符错误率、说话人嵌入余弦相似度、语音自然度等指标。5. 数据集扩展:用户可以根据需要,对WenetSpeech4TTS数据集进行扩展,例如添加新的语音数据、文本数据等。
背景与挑战
背景概述
随着大型文本到语音(TTS)模型的发展和训练数据的规模扩大,最先进的TTS系统已经取得了令人瞩目的性能。然而,现有的开源大型数据集大多为英语或多语种,缺乏用于中文TTS应用的大型数据集。WenetSpeech4TTS数据集应运而生,它是一个12,800小时的中文语音语料库,旨在解决中文TTS领域数据规模小、多样性低的问题。该数据集由西北工业大学音频、语音和语言处理小组(ASLP@NPU)创建,基于开源的WenetSpeech数据集进行加工和改进。WenetSpeech4TTS数据集通过调整语段边界、提升音频质量以及消除每个语段内的说话人混合,为TTS模型训练和微调提供了丰富的数据资源。该数据集的发布为中文TTS领域的研究和应用提供了重要的基础。
当前挑战
WenetSpeech4TTS数据集的创建面临着一系列挑战。首先,原始的WenetSpeech数据集存在音频质量不佳、语段分割不完整、说话人混合以及时间戳不准确等问题。为了解决这些问题,研究人员设计了自动化的处理流程,包括相邻语段合并、边界扩展、语音增强、多说话人检测、语音识别和质量筛选等步骤。其次,构建大规模的中文TTS语料库需要耗费大量的时间和资源,并且需要克服技术难题。最后,为了验证WenetSpeech4TTS数据集的有效性,研究人员在数据集上训练了VALL-E和NaturalSpeech 2两种大型TTS模型,并进行了主观和客观评估。这些挑战表明,构建高质量的中文TTS语料库是一项复杂的任务,需要研究人员不断探索和创新。
常用场景
经典使用场景
WenetSpeech4TTS数据集作为大型语音生成模型基准,广泛应用于中文文本到语音(TTS)任务的训练和评估。该数据集包含12,800小时的配对音频-文本数据,并细分为不同大小的子集,以适应不同质量和规模的TTS模型训练和微调需求。WenetSpeech4TTS已成为中文TTS领域的重要资源,为研究者和开发者提供了高质量的训练数据,推动了中文TTS技术的发展。
衍生相关工作
WenetSpeech4TTS数据集的发布和应用推动了中文TTS领域的进一步发展。基于WenetSpeech4TTS数据集,研究人员开发了一系列新的TTS模型和算法,并在多个国际竞赛中取得了优异成绩。此外,WenetSpeech4TTS数据集还为中文语音识别、语音增强、说话人识别等领域的算法研究提供了重要的数据支持,推动了中文语音技术的整体进步。
数据集最近研究
最新研究方向
WenetSpeech4TTS数据集的推出,标志着大规模中文语音合成模型训练数据集的重要进展。该数据集由西北工业大学音频、语音与语言处理小组等机构联合发布,旨在解决当前中文语音合成数据集规模小、多样性低的问题。WenetSpeech4TTS数据集基于开源的WenetSpeech数据集,经过精细的音频质量提升、分割边界调整和说话人混音消除等处理后,最终包含了12,800小时的音频-文本对数据。此外,根据语音质量,WenetSpeech4TTS数据集还被细分为Basic、Standard和Premium三个子集,以适应不同规模的语音合成模型训练和微调。该数据集的发布,为中文语音合成领域的研究提供了重要的基础数据,推动了大规模中文语音合成模型的发展。
相关研究论文
  • 1
    WenetSpeech4TTS: A 12,800-hour Mandarin TTS Corpus for Large Speech Generation Model Benchmark西北工业大学音频、语音与语言处理组(ASLP@NPU) · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作