TTS-Portuguese Corpus

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/Edresson/TTS-Portuguese-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于巴西葡萄牙语的语音合成，包含约10小时28分钟的单个说话者的语音，记录在48Khz，共有3,632个Wave格式的音频文件。数据集使用了公共领域的文本，包括维基百科文章和Chatterbot-corpus，以及20组语音平衡的短语。

This dataset is designed for Brazilian Portuguese speech synthesis, comprising approximately 10 hours and 28 minutes of speech from a single speaker, recorded at 48 kHz. It includes a total of 3,632 audio files in Wave format. The dataset utilizes texts from the public domain, including Wikipedia articles and the Chatterbot-corpus, along with 20 sets of phonetically balanced phrases.

创建时间：

2019-04-09

原始信息汇总

TTS-Portuguese Corpus 概述

数据集来源与内容

文本来源：数据集使用了公共领域的文本，包括Wikipedia Highlights部分的文章内容和Chatterbot-corpus中的葡萄牙语文本。
语音内容：包含20组由Seara (1994)提出的音韵平衡短语，每组10个短语。
词汇量：总词数为71,358，其中13,311个不同的词汇。

音频特性

时长：数据集包含约10小时28分钟的语音，由单一说话者录制。
格式与质量：音频文件为Wave格式，采样率为48Khz，时长从0.67秒至50.08秒不等。
噪音处理：由于录音环境非专业录音室，音频中含有噪音，使用了RNNoise库进行噪音抑制。

数据集使用与下载

授权：数据集开放源代码，根据Creative Commons Attribution 4.0 (CC BY 4.0)许可证公开可用。
下载链接：
- TTS-Portuguese Corpus 48Khz (as recorded)
- TTS-Portuguese Corpus 48Khz (as recorded) Dropbox

模型与演示

模型：数据集用于训练多种语音合成模型，包括DCTTS模型、TTS Mozilla模型（Tacotron）和GlowTTS模型结合HiFi-GAN-FT。
演示链接：
- DCTTS模型演示：链接
- TTS Mozilla模型演示：链接
- GlowTTS模型演示：链接

引用信息

预印本：

@misc{casanova2020ttsportuguese, title={TTS-Portuguese Corpus: a corpus for speech synthesis in Brazilian Portuguese}, author={Edresson Casanova and Arnaldo Candido Junior and Christopher Shulby and Frederico Santos de Oliveira and João Paulo Teixeira and Moacir Antonelli Ponti and Sandra Maria Aluisio}, year={2020}, eprint={2005.05144}, archivePrefix={arXiv}, primaryClass={eess.AS} }
完整论文：

@article{casanova2022tts, title={TTS-Portuguese Corpus: a corpus for speech synthesis in Brazilian Portuguese}, author={Casanova, Edresson and Junior, Arnaldo Candido and Shulby, Christopher and Oliveira, Frederico Santos de and Teixeira, Jo{~a}o Paulo and Ponti, Moacir Antonelli and Alu{\i}sio, Sandra}, journal={Language Resources and Evaluation}, pages={1--13}, year={2022}, publisher={Springer} }

搜集汇总

数据集介绍

构建方式

在构建TTS-Portuguese Corpus数据集时，研究者采用了多种文本来源以确保数据的多样性和丰富性。首先，从维基百科的高亮部分提取了初始文本。随后，引入了Chatterbot-corpus中的葡萄牙语文本，该语料库最初用于构建聊天机器人。此外，还整合了Seara (1994)提出的20组音素平衡短语，每组包含10个短语。最终，数据集包含了71,358个单词，其中13,311个为独特词汇。音频部分由单一说话者录制，时长约10小时28分钟，采样率为48Khz，共包含3,632个Wave格式音频文件，时长从0.67秒到50.08秒不等。由于录音环境并非专业录音室，音频中存在噪音，因此采用了RNNoise库进行噪音抑制处理。

特点

TTS-Portuguese Corpus数据集的显著特点在于其多源文本的整合和高质量的音频处理。数据集不仅包含了从维基百科和Chatterbot-corpus中提取的多样化文本，还引入了音素平衡的短语，确保了语音合成的自然度和准确性。音频部分由单一说话者录制，时长超过10小时，采样率为48Khz，提供了高质量的语音数据。此外，通过RNNoise库的应用，有效降低了录音中的背景噪音，提升了音频的纯净度。数据集遵循Creative Commons Attribution 4.0 (CC BY 4.0)许可，确保了其开放性和可访问性。

使用方法

TTS-Portuguese Corpus数据集适用于多种语音合成任务，尤其是针对巴西葡萄牙语的文本到语音转换。用户可以通过Hugging Face或Dropbox链接下载完整数据集，使用Wget命令行工具进行快速下载。数据集中的音频文件格式为Wave，采样率为48Khz，适合直接用于语音合成模型的训练和评估。此外，数据集还提供了多个预训练模型的Colab演示链接，用户可以在线体验和测试这些模型在数据集上的表现。为了确保学术引用的一致性，用户应参考提供的BibTeX格式引用信息。

背景与挑战

背景概述

TTS-Portuguese Corpus是由Edresson Casanova等人于2020年创建的，旨在为巴西葡萄牙语的语音合成研究提供高质量的数据资源。该数据集的核心研究问题是如何构建一个适用于语音合成任务的、具有良好语音质量和多样性的葡萄牙语语料库。通过从维基百科、Chatterbot-corpus以及Seara (1994)的语音平衡短语中提取文本，研究人员成功构建了一个包含约10小时28分钟语音数据的语料库。该数据集不仅丰富了葡萄牙语语音合成领域的资源，还为相关研究提供了重要的实验基础。

当前挑战

TTS-Portuguese Corpus在构建过程中面临了多个挑战。首先，由于音频并非在专业录音室中录制，原始音频文件中存在噪音，这要求研究人员采用如RNNoise这样的噪音抑制库进行后期处理。其次，数据集的多样性问题，尽管包含了多种来源的文本，但仍需进一步扩展以涵盖更广泛的语音情境。此外，单一声源的限制也可能影响模型的泛化能力，未来研究需考虑引入多说话人数据以提升模型的鲁棒性。

常用场景

经典使用场景

TTS-Portuguese Corpus 数据集在语音合成领域中具有广泛的应用，尤其适用于构建和训练巴西葡萄牙语的文本到语音（TTS）系统。通过该数据集，研究者可以训练出能够自然流畅地合成巴西葡萄牙语语音的模型，从而为语音助手、语音导航、有声读物等应用提供高质量的语音输出。

实际应用

TTS-Portuguese Corpus 数据集在实际应用中具有广泛的前景，可用于开发多种语音相关产品和服务。例如，它可以用于构建智能语音助手，帮助用户通过语音指令完成各种任务；也可用于教育领域，为学习巴西葡萄牙语的学生提供有声教材；此外，它还可应用于无障碍技术，为视障人士提供语音阅读服务。

衍生相关工作

基于 TTS-Portuguese Corpus 数据集，研究者们已经开发出多种先进的语音合成模型，如 DCTTS 模型、Tacotron 模型以及 GlowTTS 模型。这些模型在合成巴西葡萄牙语语音方面表现出色，推动了语音合成技术的发展。此外，该数据集还激发了相关领域的研究，如语音增强和噪声抑制技术的应用，进一步提升了语音合成的质量和可靠性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集