Multi-speaker Afrikaans TTS corpus

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/NWU-MuST/afr_multispeaker_tts_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多说话者Afrikaans文本到语音(TTS)的语料库，旨在研究使用多个声音记录的TTS系统的实现，这些声音记录采用了低成本过程，即使用非专业志愿者和非正式录音环境。

This is a multi-speaker Afrikaans text-to-speech (TTS) corpus, designed to investigate the implementation of TTS systems using multiple voice recordings. These recordings were obtained through a low-cost process, utilizing non-professional volunteers and informal recording environments.

创建时间：

2017-12-06

原始信息汇总

数据集概述

数据集名称

Multi-speaker Afrikaans TTS corpus

数据集目的

本数据集旨在研究使用多声音录制的文本到语音（TTS）系统，采用低成本方法，即使用非专业志愿者和非正式录音环境。

数据集内容

录音地点与时间：在南非赫尔马努斯，2015年最后一个季度录制。
录音格式与技术细节：
- 录音：FLAC格式，16位每样本，48kHz采样率。
- 字典：包含国际音标（IPA）和X-SAMPA中的电话集，以及标准和非标准发音字典。
- 转录：提供原始和标准化两种版本的正字转录。

数据集结构

目录结构：
- dictionaries：包含电话集和发音字典。
- recordings：包含FLAC格式的录音文件。
- transcriptions：包含转录文件。

文本资源

句子来源：
- Afrikaans：来自维基百科和其他免费内容，根据长度和语音覆盖（双音素单位）选择。
- English：来自CMU Arctic TTS corpora。

演讲者和语料库分层

演讲者信息：共9位演讲者，每位演讲者阅读了部分Afrikaans和English句子。
语料库组成：包括不同领域的句子，如导航、天气、问题、体育和数字，以及来自不同语言的专有名词。

正字转录和质量检查

转录过程：包括手动文本标准化和半自动转录及字典验证。
转录细节：数字、日期和特殊单词的扩展，以及外来词的标记。

电话集和发音字典

字典内容：基于NCHLT项目的电话集和G2P规则，包含标准和特殊发音字典。
字典特点：发音基于南非Gauteng省的Afrikaans方言，优先考虑现代发音版本。

数据集版本和更新

原始版本：可在http://www.openslr.org/32/获取。
文本组件最新版本：可在https://github.com/NWU-MuST获取。

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在通过低成本的方式实现多说话者的南非荷兰语文本转语音（TTS）系统。数据集于2015年第四季度在南非赫曼努斯地区由志愿者录制，使用非专业录音环境和设备。录音内容包括从维基百科和其他免费资源中提取的南非荷兰语句子，以及从CMU Arctic TTS语料库中选取的英语句子。录音过程中，句子根据长度和音素覆盖进行选择，以确保数据的多样性和广泛性。录音后，通过手动文本规范化、半自动验证和手动检查等步骤，确保了转录和发音的准确性。

特点

该数据集的主要特点在于其多说话者设计和低成本录制方式，涵盖了南非荷兰语和英语两种语言。录音以FLAC格式保存，采样率为48kHz，未经过后期处理，保留了原始录音的噪声和环境音。数据集提供了两种版本的转录文本，包括原始版本和经过规范化的版本，以及详细的音素集和发音词典，便于进行语音合成和分析。此外，数据集还记录了每位说话者的语音质量和口音特点，为研究不同说话者的语音特征提供了丰富的信息。

使用方法

用户可以通过访问数据集的GitHub页面获取录音、转录文本和发音词典等资源。录音文件以FLAC格式提供，建议在使用前进行增益归一化和去混响处理。转录文本包括原始和规范化版本，用户可根据需要选择使用。发音词典提供了标准发音、不规则发音和说话者特定发音的详细信息，有助于进行语音合成和发音规则提取。数据集还提供了每位说话者的语音质量和口音信息，用户可根据这些信息进行特定说话者的语音分析和合成。

背景与挑战

背景概述

多说话者南非荷兰语TTS语料库（Multi-speaker Afrikaans TTS corpus）是由南非赫曼努斯地区的志愿者于2015年第四季度录制的，旨在研究低成本环境下（使用非专业志愿者和非正式录音环境）实现多说话者文本到语音（TTS）系统的可行性。该语料库的核心研究问题是如何在资源有限的情况下，构建一个能够支持多种语音风格的TTS系统。主要研究人员包括D.R. van Niekerk、C. van Heerden等，他们的研究成果发表在2017年国际语音通信协会年会上，对南非语言的TTS系统开发具有重要影响。

当前挑战

该语料库在构建过程中面临多项挑战。首先，录音环境的不规范和志愿者的非专业性导致音频质量参差不齐，部分录音存在背景噪音和音频失真问题。其次，文本转录和发音校验过程复杂，需要手动进行文本规范化并验证发音准确性，这增加了数据处理的难度。此外，语料库中包含多种语言的句子，尤其是南非荷兰语和英语的混合，增加了语音合成系统在多语言处理上的复杂性。最后，由于录音设备的限制，部分录音存在缓冲区溢出问题，导致部分数据无法使用。

常用场景

经典使用场景

Multi-speaker Afrikaans TTS corpus 主要用于开发和评估多说话人南非荷兰语的文本到语音（TTS）系统。该数据集通过低成本的录音过程收集，使用非专业志愿者在非正式环境中录制，旨在研究如何利用这些数据构建高效的TTS系统。其经典使用场景包括语音合成模型的训练与测试，特别是在需要多说话人语音数据的场景中，如个性化语音合成、语音转换以及跨语言语音合成等。

解决学术问题

该数据集解决了在低资源语言环境下开发TTS系统的常见学术问题，尤其是在南非荷兰语等资源匮乏的语言中。通过提供多说话人的语音数据，研究者可以探索如何利用有限的资源构建高质量的语音合成系统，并解决诸如语音多样性、发音变异、以及跨语言发音等问题。这为低资源语言的语音合成研究提供了重要的实验基础，推动了相关领域的技术进步。

衍生相关工作

基于 Multi-speaker Afrikaans TTS corpus，研究者们开展了多项相关工作。例如，有研究探讨了如何利用该数据集进行低资源语言的语音合成模型训练，并提出了多种优化策略。此外，该数据集还被用于研究语音多样性对语音合成系统性能的影响，以及如何通过数据增强技术提升合成语音的自然度。这些工作不仅丰富了语音合成领域的研究内容，也为其他低资源语言的语音合成研究提供了参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集