TTS-Portuguese Corpus

Name: TTS-Portuguese Corpus
Creator: 圣保罗大学数学与计算机科学研究所
Published: 2022-01-30 03:28:54
License: 暂无描述

arXiv2022-01-30 更新2024-06-21 收录

下载链接：

https://github.com/Edresson/TTS-Portuguese-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

TTS-Portuguese Corpus是一个专为巴西葡萄牙语语音合成设计的数据集，由圣保罗大学数学与计算机科学研究所创建。该数据集包含10.5小时的单个巴西葡萄牙语母语者的语音，共计3632个音频文件，涵盖了71,358个单词。数据集的创建过程涉及从维基百科提取文章，并结合了用于构建聊天机器人的语料库，以增加词汇量和表达性。该数据集主要用于训练和评估基于深度学习的端到端语音合成模型，旨在解决非英语语言在语音合成资源和系统方面的不足。

TTS-Portuguese Corpus is a dataset specifically designed for Brazilian Portuguese text-to-speech systems, developed by the Institute of Mathematics and Computer Science at the University of São Paulo. It contains 10.5 hours of speech from a single native Brazilian Portuguese speaker, totaling 3,632 audio files covering 71,358 words. The dataset was constructed by extracting articles from Wikipedia and combining with a corpus used for building chatbots, to expand vocabulary and enhance expressive quality. This dataset is primarily employed for training and evaluating deep learning-based end-to-end speech synthesis models, aiming to address the shortage of speech synthesis resources and systems for non-English languages.

提供机构：

圣保罗大学数学与计算机科学研究所

创建时间：

2020-05-11

搜集汇总

数据集介绍

构建方式

TTS-Portuguese Corpus 是一个用于巴西葡萄牙语语音合成的数据集，由 Casanova 等人于 2022 年创建。该数据集包含 10.5 小时的单个说话人的语音数据，并使用 Tacotron 2 模型和 RTISI-LA 语音合成器实现了最佳性能，达到了 4.03 的 MOS 值。该数据集的构建过程主要涉及从公共领域文本中提取文章，将其分为句子并随机选择句子进行录制，同时使用了 20 套语音平衡句子和 Chatterbot-corpus1 中的句子。所有音频文件均以 48kHz 的采样频率和 32 位的位深度录制，每个音频文件都有相应的文本转录。

特点

TTS-Portuguese Corpus 的主要特点包括：1）包含超过 10 小时的巴西葡萄牙语语音数据；2）数据集包含来自不同领域的文章和语音平衡句子，以及来自 Chatterbot-corpus1 的句子；3）音频文件以 48kHz 的高采样频率录制，并且每个音频文件都有相应的文本转录；4）该数据集是开源的，并在 Creative Commons Attribution 4.0 许可证下公开发布。

使用方法

TTS-Portuguese Corpus 的使用方法主要包括：1）将数据集下载到本地计算机；2）使用相应的语音合成模型（如 Tacotron 2 或 DCTTS）进行训练；3）使用训练好的模型进行语音合成；4）将生成的语音信号转换为音频文件。需要注意的是，使用该数据集进行语音合成时，需要确保使用的语音合成模型能够处理巴西葡萄牙语，并且已经进行了适当的训练。

背景与挑战

背景概述

TTS-Portuguese Corpus数据集的创建旨在为巴西葡萄牙语提供语音合成系统所需的资源。由于巴西葡萄牙语在语音合成资源方面相对匮乏，该数据集的创建为研究人员提供了宝贵的资源。该数据集由巴西圣保罗大学数学与计算机科学研究所的Edresson Casanova等人创建，并于2022年1月29日在arXiv上发布了相关论文。该数据集包含10.5小时的巴西葡萄牙语语音数据，由一位男性母语者录制。该数据集的创建为巴西葡萄牙语语音合成研究提供了重要的基础，并有助于推动该领域的发展。

当前挑战

TTS-Portuguese Corpus数据集在创建过程中面临了多项挑战。首先，巴西葡萄牙语在语音合成资源方面相对匮乏，因此收集高质量的语音数据是一项挑战。其次，数据集的创建需要考虑语音数据的多样性，以适应不同的语音合成应用场景。此外，数据集的创建还需要考虑数据集的规模和复杂性，以满足深度学习模型的需求。最后，数据集的创建还需要考虑数据集的开放性和可访问性，以便研究人员能够方便地获取和使用数据集。

常用场景

经典使用场景

TTS-Portuguese Corpus 是一个专为巴西葡萄牙语语音合成系统设计的语料库，包含了由单一说话人录制的超过10小时的高质量语音数据。该数据集的经典使用场景在于训练端到端的语音合成模型，如 Tacotron 2，通过该模型，研究人员能够将文本直接转换为自然流畅的语音输出。该数据集为巴西葡萄牙语语音合成领域的研究提供了宝贵的资源，使得在这一领域的研究得以与英语等资源丰富的语言相媲美。

解决学术问题

TTS-Portuguese Corpus 解决了巴西葡萄牙语语音合成资源匮乏的问题。在深度学习模型中，数据的规模和质量直接影响模型的性能。巴西葡萄牙语作为一个资源相对较少的语言，缺乏高质量的语音数据集，这使得在该语言上进行语音合成模型的研究和开发面临挑战。TTS-Portuguese Corpus 的出现填补了这一空白，为巴西葡萄牙语语音合成领域的研究提供了丰富的数据资源，推动了该领域的发展。

衍生相关工作

TTS-Portuguese Corpus 的发布促进了巴西葡萄牙语语音合成领域的研究。基于该数据集，研究人员可以开展更多关于端到端语音合成模型的研究，探索更先进的模型结构和训练方法。此外，该数据集还为其他低资源语言的语音合成研究提供了参考和借鉴，推动了语音合成技术在更多语言上的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集