TTS-Portuguese Corpus
收藏arXiv2022-01-30 更新2024-06-21 收录
下载链接:
https://github.com/Edresson/TTS-Portuguese-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
TTS-Portuguese Corpus是一个专为巴西葡萄牙语语音合成设计的数据集,由圣保罗大学数学与计算机科学研究所创建。该数据集包含10.5小时的单个巴西葡萄牙语母语者的语音,共计3632个音频文件,涵盖了71,358个单词。数据集的创建过程涉及从维基百科提取文章,并结合了用于构建聊天机器人的语料库,以增加词汇量和表达性。该数据集主要用于训练和评估基于深度学习的端到端语音合成模型,旨在解决非英语语言在语音合成资源和系统方面的不足。
TTS-Portuguese Corpus is a dataset specifically designed for Brazilian Portuguese text-to-speech systems, developed by the Institute of Mathematics and Computer Science at the University of São Paulo. It contains 10.5 hours of speech from a single native Brazilian Portuguese speaker, totaling 3,632 audio files covering 71,358 words. The dataset was constructed by extracting articles from Wikipedia and combining with a corpus used for building chatbots, to expand vocabulary and enhance expressive quality. This dataset is primarily employed for training and evaluating deep learning-based end-to-end speech synthesis models, aiming to address the shortage of speech synthesis resources and systems for non-English languages.
提供机构:
圣保罗大学数学与计算机科学研究所
创建时间:
2020-05-11
搜集汇总
数据集介绍

构建方式
TTS-Portuguese Corpus 是一个用于巴西葡萄牙语语音合成的数据集,由 Casanova 等人于 2022 年创建。该数据集包含 10.5 小时的单个说话人的语音数据,并使用 Tacotron 2 模型和 RTISI-LA 语音合成器实现了最佳性能,达到了 4.03 的 MOS 值。该数据集的构建过程主要涉及从公共领域文本中提取文章,将其分为句子并随机选择句子进行录制,同时使用了 20 套语音平衡句子和 Chatterbot-corpus1 中的句子。所有音频文件均以 48kHz 的采样频率和 32 位的位深度录制,每个音频文件都有相应的文本转录。
特点
TTS-Portuguese Corpus 的主要特点包括:1)包含超过 10 小时的巴西葡萄牙语语音数据;2)数据集包含来自不同领域的文章和语音平衡句子,以及来自 Chatterbot-corpus1 的句子;3)音频文件以 48kHz 的高采样频率录制,并且每个音频文件都有相应的文本转录;4)该数据集是开源的,并在 Creative Commons Attribution 4.0 许可证下公开发布。
使用方法
TTS-Portuguese Corpus 的使用方法主要包括:1)将数据集下载到本地计算机;2)使用相应的语音合成模型(如 Tacotron 2 或 DCTTS)进行训练;3)使用训练好的模型进行语音合成;4)将生成的语音信号转换为音频文件。需要注意的是,使用该数据集进行语音合成时,需要确保使用的语音合成模型能够处理巴西葡萄牙语,并且已经进行了适当的训练。
背景与挑战
背景概述
TTS-Portuguese Corpus数据集的创建旨在为巴西葡萄牙语提供语音合成系统所需的资源。由于巴西葡萄牙语在语音合成资源方面相对匮乏,该数据集的创建为研究人员提供了宝贵的资源。该数据集由巴西圣保罗大学数学与计算机科学研究所的Edresson Casanova等人创建,并于2022年1月29日在arXiv上发布了相关论文。该数据集包含10.5小时的巴西葡萄牙语语音数据,由一位男性母语者录制。该数据集的创建为巴西葡萄牙语语音合成研究提供了重要的基础,并有助于推动该领域的发展。
当前挑战
TTS-Portuguese Corpus数据集在创建过程中面临了多项挑战。首先,巴西葡萄牙语在语音合成资源方面相对匮乏,因此收集高质量的语音数据是一项挑战。其次,数据集的创建需要考虑语音数据的多样性,以适应不同的语音合成应用场景。此外,数据集的创建还需要考虑数据集的规模和复杂性,以满足深度学习模型的需求。最后,数据集的创建还需要考虑数据集的开放性和可访问性,以便研究人员能够方便地获取和使用数据集。
常用场景
经典使用场景
TTS-Portuguese Corpus 是一个专为巴西葡萄牙语语音合成系统设计的语料库,包含了由单一说话人录制的超过10小时的高质量语音数据。该数据集的经典使用场景在于训练端到端的语音合成模型,如 Tacotron 2,通过该模型,研究人员能够将文本直接转换为自然流畅的语音输出。该数据集为巴西葡萄牙语语音合成领域的研究提供了宝贵的资源,使得在这一领域的研究得以与英语等资源丰富的语言相媲美。
解决学术问题
TTS-Portuguese Corpus 解决了巴西葡萄牙语语音合成资源匮乏的问题。在深度学习模型中,数据的规模和质量直接影响模型的性能。巴西葡萄牙语作为一个资源相对较少的语言,缺乏高质量的语音数据集,这使得在该语言上进行语音合成模型的研究和开发面临挑战。TTS-Portuguese Corpus 的出现填补了这一空白,为巴西葡萄牙语语音合成领域的研究提供了丰富的数据资源,推动了该领域的发展。
衍生相关工作
TTS-Portuguese Corpus 的发布促进了巴西葡萄牙语语音合成领域的研究。基于该数据集,研究人员可以开展更多关于端到端语音合成模型的研究,探索更先进的模型结构和训练方法。此外,该数据集还为其他低资源语言的语音合成研究提供了参考和借鉴,推动了语音合成技术在更多语言上的应用和发展。
以上内容由遇见数据集搜集并总结生成



