BRSpeech

github2024-02-02 更新2024-05-31 收录

下载链接：

https://github.com/freds0/BRSpeech-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

BRSpeech是一个高质量的葡萄牙语语音合成数据集，用于训练文本到语音（TTS）模型。该数据集基于CML-TTS，由联邦大学戈亚斯分校的人工智能卓越中心（CEIA）开发。BRSpeech通过自动语音识别工具进行转录并手动验证，以提高音频文件的质量。数据集包含来自公共领域书籍的录音，由LibriVox项目的志愿者朗读，涵盖巴西葡萄牙语和欧洲葡萄牙语，采样率为48kHz。

BRSpeech is a high-quality Portuguese speech synthesis dataset designed for training text-to-speech (TTS) models. This dataset is based on CML-TTS and was developed by the Center of Excellence in Artificial Intelligence (CEIA) at the Federal University of Goiás. BRSpeech employs automatic speech recognition tools for transcription, which are then manually verified to enhance the quality of the audio files. The dataset includes recordings from public domain books, read by volunteers from the LibriVox project, encompassing both Brazilian and European Portuguese, with a sampling rate of 48kHz.

创建时间：

2024-01-09

原始信息汇总

BRSpeech数据集概述

数据集描述

名称: BRSpeech
目的: 用于训练葡萄牙语的文本到语音(TTS)模型
开发机构: 联邦大学Goias的人工智能卓越中心(CEIA)
数据处理: 音频文件质量提升，使用自动语音识别工具进行转录并手动验证
版权: CC-BY 4.0许可

数据集内容

来源: 来自Project Gutenberg的公共领域书籍，由LibriVox项目的志愿者朗读
语言: 巴西葡萄牙语和欧洲葡萄牙语
采样率: 48kHz

数据集下载

主要下载链接: 点击此处
替代下载链接: BRSpeech Dataset
段文件下载链接: 在此链接

数据集统计

统计信息: 包括数据集的饼图、统计图表以及按说话者分类的持续时间和单词数图表

音频样本

样本访问: 访问BRSpeech-Dataset网站听取样本

引用信息

@InProceedings{Cmltts2023, title="CML-TTS: A Multilingual Dataset for Speech Synthesis in Low-Resource Languages", author="Oliveira, Frederico S. and Casanova, Edresson and Junior, Arnaldo Candido and Soares, Anderson S. and Galv{~a}o Filho, Arlindo R.", editor="Ek{v{s}}tein, Kamil and P{a}rtl, Franti{v{s}}ek and Konop{i}k, Miloslav", booktitle="Text, Speech, and Dialogue", year="2023", publisher="Springer Nature Switzerland", address="Cham", pages="188--199", isbn="978-3-031-40498-6" }

搜集汇总

数据集介绍

构建方式

BRSpeech数据集的构建基于CML-TTS框架，由巴西戈亚斯联邦大学人工智能卓越中心（CEIA）开发。该数据集通过自动语音识别（ASR）工具生成转录文本，并经过人工验证以确保准确性。音频文件源自公共领域的电子书项目Gutenberg，并由LibriVox志愿者朗读，采样率为48kHz，涵盖了巴西葡萄牙语和欧洲葡萄牙语。

特点

BRSpeech数据集以其高质量音频和精确转录著称，特别适用于葡萄牙语文本到语音（TTS）模型的训练。数据集包含多种语音样本，能够支持多语言和低资源语言的语音合成研究。其丰富的统计信息，如每位朗读者的音频时长和词汇量分布，为研究者提供了详尽的参考。

使用方法

BRSpeech数据集可通过指定链接下载，文件格式为压缩包，下载后需验证MD5校验值以确保数据完整性。研究者可利用该数据集训练TTS模型，或通过访问官方网站试听音频样本及模型生成结果。数据集遵循CC-BY 4.0许可协议，允许广泛的学术和商业用途。

背景与挑战

背景概述

BRSpeech数据集由巴西戈亚斯联邦大学人工智能卓越中心（CEIA）开发，旨在为葡萄牙语的文本到语音（TTS）模型提供高质量的训练数据。该数据集基于CML-TTS框架，通过自动语音识别（ASR）工具生成转录文本，并经过人工验证以确保准确性。BRSpeech的音频文件来源于公共领域的古腾堡计划（Project Gutenberg）和志愿者朗读的LibriVox项目，涵盖了巴西葡萄牙语和欧洲葡萄牙语的录音，采样率为48kHz。该数据集的发布为低资源语言的语音合成研究提供了重要支持，推动了多语言TTS技术的发展。

当前挑战

BRSpeech数据集在构建过程中面临多重挑战。首先，葡萄牙语作为一种低资源语言，其语音数据的获取和标注成本较高，尤其是在确保转录文本的准确性和一致性方面。其次，音频文件的质量控制是一个关键问题，尽管采用了自动语音识别工具进行初步处理，但仍需大量人工干预以消除噪声和错误。此外，数据集的多样性和代表性也是一个挑战，如何平衡不同方言、口音和语速的样本，以确保模型训练的泛化能力，是构建过程中需要解决的核心问题。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

BRSpeech数据集在葡萄牙语语音合成领域具有广泛的应用，尤其是在训练高质量的文本到语音（TTS）模型时。该数据集基于CML-TTS框架开发，包含了经过质量优化的音频文件和手动验证的转录文本，适用于葡萄牙语的语音合成研究。通过使用BRSpeech，研究人员能够构建更加自然和流畅的语音合成系统，尤其是在巴西葡萄牙语和欧洲葡萄牙语的处理上表现出色。

衍生相关工作

BRSpeech数据集的发布催生了一系列相关研究，尤其是在多语言和低资源语言的语音合成领域。基于该数据集的研究工作不仅改进了葡萄牙语TTS模型的性能，还为其他低资源语言的语音合成提供了新的思路和方法。例如，一些研究利用BRSpeech的数据进行跨语言迁移学习，成功地将葡萄牙语TTS模型应用于其他语言的语音合成任务。

数据集最近研究