CML-TTS

Name: CML-TTS
Creator: 联邦大学戈亚斯分校
Published: 2023-06-17 01:17:06
License: 暂无描述

arXiv2023-06-17 更新2024-06-21 收录

下载链接：

https://freds0.github.io/CML-TTS-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CML-TTS是一个多语言文本到语音合成数据集，由联邦大学戈亚斯分校的人工智能卓越中心开发。该数据集基于Multilingual LibriSpeech，包含七种语言的音频书籍，旨在为多语言模型提供新的研究可能性。数据集总时长为3,233.43小时，包含613位说话者，采样率为24kHz，适用于训练TTS模型。创建过程中，数据集通过下载原始音频、文本规范化、音频分割和文本验证等步骤处理，确保数据质量。CML-TTS的应用领域主要集中在多语言TTS模型的研究和开发，以解决不同语言环境下语音合成的需求。

CML-TTS is a multilingual text-to-speech synthesis dataset developed by the Center of Excellence in Artificial Intelligence at the Federal University of Goiás. Built upon Multilingual LibriSpeech, the dataset includes audiobooks spanning seven languages, and is designed to offer novel research possibilities for multilingual models. It has a total duration of 3,233.43 hours, encompasses 613 speakers, and features a sampling rate of 24 kHz, making it suitable for training TTS models. During its curation, the dataset underwent processing steps including raw audio download, text normalization, audio segmentation and text validation to guarantee data quality. The primary application domains of CML-TTS lie in the research and development of multilingual TTS models, aimed at fulfilling the speech synthesis requirements across diverse linguistic contexts.

提供机构：

联邦大学戈亚斯分校

创建时间：

2023-06-17

搜集汇总

数据集介绍

构建方式

在低资源语言语音合成领域，高质量多语种数据集的匮乏长期制约着非英语TTS模型的发展。CML-TTS数据集应运而生，其构建源自Multilingual LibriSpeech（MLS）语料库，但针对TTS训练需求进行了深度适配。具体而言，数据来源于LibriVox项目的公共领域有声读物，涵盖荷兰语、法语、德语、意大利语、波兰语、葡萄牙语和西班牙语七种语言。构建流程包含四个精密步骤：首先通过LibriVox API下载原始MP3音频并转换为24kHz采样率的WAV格式，剔除低质量样本；其次利用基于Levenshtein距离的文本相似度算法，为MLS中缺失标点的句子从原始文本中检索并补充标点；接着借助Aeneas工具将超过15秒的音频按句号分割为1至20秒的短片段；最后采用Wav2Vec 2.0 XLSR Large模型对音频进行语音识别转录，丢弃相似度低于0.9的样本，确保文本与音频的对齐精度。

特点

CML-TTS数据集以其多语种覆盖与高质量特性，为低资源语言TTS研究提供了坚实基石。其核心特点体现在三个方面：其一，规模宏大，总时长高达3,233.43小时，包含613位朗读者，各语言子集在时长与说话人数量上分布多样，其中德语占比最重，波兰语和葡萄牙语则作为典型低资源语言被纳入；其二，音频质量经过严格把控，通过WADA算法评估信噪比，样本质量分为高、中、低三档，且所有音频均以24kHz采样率存储，满足TTS模型对高保真音频的需求；其三，句子长度与时长分布经过精心优化，平均每句20个单词、时长8至12秒，相较于MLS原始数据更接近LibriTTS的分布特征，有效提升了模型训练的稳定性和泛化能力。

使用方法

CML-TTS数据集在TTS模型训练中展现出灵活的应用价值，尤其适用于多语种和零样本场景。研究人员可直接将其与LibriTTS等英语数据集联合使用，训练如YourTTS这样的多语种零样本多说话人模型，通过说话人编码器和语言嵌入实现跨语言语音克隆。使用时需注意，数据集已预划分为训练集、验证集和测试集，各语言子集独立存放，便于按需加载。为评估模型性能，可采用说话人编码余弦相似度（SECS）衡量合成语音与真实语音的相似度，并通过词错误率（WER）和字符错误率（CER）评估文本保真度。此外，由于数据来源于LibriVox有声读物，部分语言（如葡萄牙语）可能存在正字法变化，建议在训练前进行文本归一化处理以提升合成质量。

背景与挑战

背景概述

文本到语音（TTS）合成技术近年来因深度学习的突破而蓬勃发展，催生了如Apple Siri、Amazon Alexa等虚拟助手的普及。然而，多数高质量TTS数据集集中于英语，导致低资源语言的多语种TTS研究面临数据匮乏的瓶颈。为填补这一空白，巴西戈亚斯联邦大学人工智能卓越中心（CEIA）的研究团队于2023年发布了CML-TTS数据集。该数据集基于Multilingual LibriSpeech（MLS）改造，涵盖荷兰语、法语、德语、意大利语、波兰语、葡萄牙语和西班牙语七种语言，总计超过3,176小时的音频，采样率统一为24kHz。通过引入标点恢复、音频分割及语音识别验证等精细处理流程，CML-TTS为多语种TTS模型提供了高质量、可公开获取的训练资源，对推动低资源语言语音合成研究具有里程碑意义。

当前挑战

CML-TTS面临的核心挑战体现在两个层面。首先，在领域问题层面，多语种TTS模型需同时处理发音、韵律及语言学特征的跨语言差异，而低资源语言（如波兰语、葡萄牙语）的标注数据稀缺，导致模型在零样本场景下的泛化能力受限，尤其表现在说话人相似度（SECS）和词错误率（WER）指标上，葡萄牙语因历史正字法变化导致WER高达0.4548。其次，在数据集构建过程中，从MLS原始音频中提取符合TTS训练标准的语料面临多重困难：原始音频缺乏标点符号，需通过基于Levenshtein距离的相似度搜索算法从文本中恢复标点；音频片段时长分布不均（MLS片段集中在10-20秒），需按句号分割并借助Aeneas工具对齐，导致片段时长偏向12秒附近；最终需利用Wav2Vec 2.0模型逐句验证转录质量，丢弃相似度低于0.9的样本，这一过程虽保障了数据纯度，但显著减少了可用样本量，并加剧了性别时长不平衡（男性2,278小时 vs. 女性897小时）。

常用场景

经典使用场景

在语音合成研究领域，CML-TTS数据集为多语言文本到语音（TTS）模型的训练与评估提供了丰富的语料资源。该数据集涵盖了荷兰语、法语、德语、意大利语、波兰语、葡萄牙语和西班牙语七种语言，总时长超过三千小时，包含六百余位朗读者。研究者可利用该数据集训练端到端的多语言TTS模型，探索跨语言语音合成的内在规律，尤其在低资源语言场景下，CML-TTS填补了高质量多语言TTS语料的空白，成为推动多语种语音合成技术发展的基石。

实际应用

在实际应用中，CML-TTS数据集赋能了多语言智能语音助手的开发与部署。基于该数据集训练的YourTTS模型能够以较少的参考语音实现未见说话人的高质量语音合成，并支持跨语言说话人迁移。这一能力可被应用于多语种虚拟客服、有声读物自动生成、语言学习辅助工具以及无障碍语音交互系统等场景中，使得非英语母语用户也能享受到自然流畅的语音交互体验，有效促进了语音技术的普惠化发展。

衍生相关工作

CML-TTS数据集的发布催生了一系列相关研究工作。其中最具代表性的当属YourTTS模型，该模型以VITS架构为基础，结合预训练的说话人编码器，在CML-TTS与LibriTTS的联合训练下实现了多语言零样本语音合成，其跨语言说话人迁移能力在实验中展现出优异的自然度和相似度。此外，该数据集也为后续的多语言TTS模型优化、低资源语言语音增强以及语料质量自动评估方法的研究提供了基准数据，推动了多语种语音合成领域的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集