five

TTS-Portuguese Corpus

收藏
github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/Edresson/TTS-Portuguese-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于巴西葡萄牙语的语音合成,包含约10小时28分钟的单个说话者的语音,记录在48Khz,共有3,632个Wave格式的音频文件。数据集使用了公共领域的文本,包括维基百科文章和Chatterbot-corpus,以及20组语音平衡的短语。

This dataset is designed for Brazilian Portuguese speech synthesis, comprising approximately 10 hours and 28 minutes of speech from a single speaker, recorded at 48 kHz. It includes a total of 3,632 audio files in Wave format. The dataset utilizes texts from the public domain, including Wikipedia articles and the Chatterbot-corpus, along with 20 sets of phonetically balanced phrases.
创建时间:
2019-04-09
原始信息汇总

TTS-Portuguese Corpus 概述

数据集来源与内容

  • 文本来源:数据集使用了公共领域的文本,包括Wikipedia Highlights部分的文章内容和Chatterbot-corpus中的葡萄牙语文本。
  • 语音内容:包含20组由Seara (1994)提出的音韵平衡短语,每组10个短语。
  • 词汇量:总词数为71,358,其中13,311个不同的词汇。

音频特性

  • 时长:数据集包含约10小时28分钟的语音,由单一说话者录制。
  • 格式与质量:音频文件为Wave格式,采样率为48Khz,时长从0.67秒至50.08秒不等。
  • 噪音处理:由于录音环境非专业录音室,音频中含有噪音,使用了RNNoise库进行噪音抑制。

数据集使用与下载

模型与演示

  • 模型:数据集用于训练多种语音合成模型,包括DCTTS模型、TTS Mozilla模型(Tacotron)和GlowTTS模型结合HiFi-GAN-FT。
  • 演示链接
    • DCTTS模型演示:链接
    • TTS Mozilla模型演示:链接
    • GlowTTS模型演示:链接

引用信息

  • 预印本

    @misc{casanova2020ttsportuguese, title={TTS-Portuguese Corpus: a corpus for speech synthesis in Brazilian Portuguese}, author={Edresson Casanova and Arnaldo Candido Junior and Christopher Shulby and Frederico Santos de Oliveira and João Paulo Teixeira and Moacir Antonelli Ponti and Sandra Maria Aluisio}, year={2020}, eprint={2005.05144}, archivePrefix={arXiv}, primaryClass={eess.AS} }

  • 完整论文

    @article{casanova2022tts, title={TTS-Portuguese Corpus: a corpus for speech synthesis in Brazilian Portuguese}, author={Casanova, Edresson and Junior, Arnaldo Candido and Shulby, Christopher and Oliveira, Frederico Santos de and Teixeira, Jo{~a}o Paulo and Ponti, Moacir Antonelli and Alu{\i}sio, Sandra}, journal={Language Resources and Evaluation}, pages={1--13}, year={2022}, publisher={Springer} }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建TTS-Portuguese Corpus数据集时,研究者采用了多种文本来源以确保数据的多样性和丰富性。首先,从维基百科的高亮部分提取了初始文本。随后,引入了Chatterbot-corpus中的葡萄牙语文本,该语料库最初用于构建聊天机器人。此外,还整合了Seara (1994)提出的20组音素平衡短语,每组包含10个短语。最终,数据集包含了71,358个单词,其中13,311个为独特词汇。音频部分由单一说话者录制,时长约10小时28分钟,采样率为48Khz,共包含3,632个Wave格式音频文件,时长从0.67秒到50.08秒不等。由于录音环境并非专业录音室,音频中存在噪音,因此采用了RNNoise库进行噪音抑制处理。
特点
TTS-Portuguese Corpus数据集的显著特点在于其多源文本的整合和高质量的音频处理。数据集不仅包含了从维基百科和Chatterbot-corpus中提取的多样化文本,还引入了音素平衡的短语,确保了语音合成的自然度和准确性。音频部分由单一说话者录制,时长超过10小时,采样率为48Khz,提供了高质量的语音数据。此外,通过RNNoise库的应用,有效降低了录音中的背景噪音,提升了音频的纯净度。数据集遵循Creative Commons Attribution 4.0 (CC BY 4.0)许可,确保了其开放性和可访问性。
使用方法
TTS-Portuguese Corpus数据集适用于多种语音合成任务,尤其是针对巴西葡萄牙语的文本到语音转换。用户可以通过Hugging Face或Dropbox链接下载完整数据集,使用Wget命令行工具进行快速下载。数据集中的音频文件格式为Wave,采样率为48Khz,适合直接用于语音合成模型的训练和评估。此外,数据集还提供了多个预训练模型的Colab演示链接,用户可以在线体验和测试这些模型在数据集上的表现。为了确保学术引用的一致性,用户应参考提供的BibTeX格式引用信息。
背景与挑战
背景概述
TTS-Portuguese Corpus是由Edresson Casanova等人于2020年创建的,旨在为巴西葡萄牙语的语音合成研究提供高质量的数据资源。该数据集的核心研究问题是如何构建一个适用于语音合成任务的、具有良好语音质量和多样性的葡萄牙语语料库。通过从维基百科、Chatterbot-corpus以及Seara (1994)的语音平衡短语中提取文本,研究人员成功构建了一个包含约10小时28分钟语音数据的语料库。该数据集不仅丰富了葡萄牙语语音合成领域的资源,还为相关研究提供了重要的实验基础。
当前挑战
TTS-Portuguese Corpus在构建过程中面临了多个挑战。首先,由于音频并非在专业录音室中录制,原始音频文件中存在噪音,这要求研究人员采用如RNNoise这样的噪音抑制库进行后期处理。其次,数据集的多样性问题,尽管包含了多种来源的文本,但仍需进一步扩展以涵盖更广泛的语音情境。此外,单一声源的限制也可能影响模型的泛化能力,未来研究需考虑引入多说话人数据以提升模型的鲁棒性。
常用场景
经典使用场景
TTS-Portuguese Corpus 数据集在语音合成领域中具有广泛的应用,尤其适用于构建和训练巴西葡萄牙语的文本到语音(TTS)系统。通过该数据集,研究者可以训练出能够自然流畅地合成巴西葡萄牙语语音的模型,从而为语音助手、语音导航、有声读物等应用提供高质量的语音输出。
实际应用
TTS-Portuguese Corpus 数据集在实际应用中具有广泛的前景,可用于开发多种语音相关产品和服务。例如,它可以用于构建智能语音助手,帮助用户通过语音指令完成各种任务;也可用于教育领域,为学习巴西葡萄牙语的学生提供有声教材;此外,它还可应用于无障碍技术,为视障人士提供语音阅读服务。
衍生相关工作
基于 TTS-Portuguese Corpus 数据集,研究者们已经开发出多种先进的语音合成模型,如 DCTTS 模型、Tacotron 模型以及 GlowTTS 模型。这些模型在合成巴西葡萄牙语语音方面表现出色,推动了语音合成技术的发展。此外,该数据集还激发了相关领域的研究,如语音增强和噪声抑制技术的应用,进一步提升了语音合成的质量和可靠性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作