Multi-speaker Setswana TTS corpus
收藏github2018-10-19 更新2024-05-31 收录
下载链接:
https://github.com/NWU-MuST/tsn_multispeaker_tts_corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个多说话人塞茨瓦纳语的文本到语音转换数据集,旨在研究使用低成本方法(即使用非专业志愿者和非正式录音环境)实现TTS系统的可行性。数据集在南非波切夫斯特鲁姆的西北大学校园内录制,使用志愿者声音,并提供了详细的录音、字典和转录信息。
This is a multi-speaker Setswana text-to-speech (TTS) dataset designed to investigate the feasibility of implementing a TTS system using low-cost methods, such as employing non-professional volunteers and informal recording environments. The dataset was recorded on the campus of North-West University in Potchefstroom, South Africa, utilizing volunteer voices, and includes detailed recordings, dictionaries, and transcription information.
创建时间:
2017-12-06
原始信息汇总
数据集概述:Multi-speaker Setswana TTS corpus
数据集描述
目标
本数据集旨在研究使用多声音录制的文本到语音(TTS)系统的实现,采用低成本录制过程,使用非专业志愿者和非正式录制环境。
录制信息
- 地点:Potchefstroom, South Africa
- 时间:2016年第一季度
- 参与者:North-West University校园的志愿者
数据集结构
包含的子目录
dictionariesrecordingstranscriptions
详细内容
1. 字典
*.phoneset.p2p:包含国际音标(IPA)和X-SAMPA中的完整电话集。*.regular.dict:包含适合字素到音素规则提取的标准发音。*.irregular.dict:包含不符合语言拼写规则的标准发音。*.addendum.dict:包含语料库中发现的发音偏差。
2. 录音
- 格式:FLAC,16位/样本,48kHz采样率。
- 特点:未进行后期处理或音频编辑,建议在进一步处理前应用增益归一化和去混响过滤。
3. 转录
utts.data.orig:原始录音时的原始形式。utts.data.norm:对应于提供字典的规范化和审核形式。
文本资源
来源
- Setswana句子:来自Nalibali、African Storybook和翻译自Wikipedia的在线故事。
- English句子:来自CMU Arctic TTS语料库。
处理
- 根据长度(单词数量)将完整句子分成子集。
- 根据双音素单位选择每个长度子集中的句子,选择更多短句子。
发言人及语料库分层
发言人和语言
- 每位发言人阅读Setswana和English的句子子集。
- 所有发言人都阅读了包含最罕见电话的小部分重叠句子。
数据统计
| 发言人 | Setswana句子数 | English句子数 | Setswana时长 | English时长 |
|---|---|---|---|---|
| 01 | 302 | 139 | 16.74秒 | 6.41秒 |
| 02 | 304 | 143 | 16.64秒 | 6.21秒 |
| 03 | 303 | 144 | 16.33秒 | 6.00秒 |
| 04 | 312 | 153 | 18.23秒 | 6.50秒 |
| 05 | 297 | 145 | 15.77秒 | 6.14秒 |
| 总计 | 1518 | 724 | 83.73秒 | 31.28秒 |
转录和质量检查
过程
- 手动文本规范化(扩展数字、日期和标记外来词和“特殊”词)。
- 半自动验证转录和字典,手动审查自动技术标记的可能不准确之处。
标记
- 数字使用
-分隔以保留原始令牌。 - 使用
_标记具有“特殊”发音的词。 - 使用
|标记外来词。
电话集和发音字典
基础
- 基于NCHLT项目。
- 电话集与原始NCHLT集有所不同,合并了一些电话为塞擦音和双元音。
发音一致性
- 除了发音附录中的发言者特定和其他特殊条目外,发音遵循NCHLT项目的约定。
- 外来词尽可能接近其原始语言的发音进行转录。
注意事项
- Setswana电话集不包括/z/, /v/, /g/和/K/等音素,这些音素可能出现在借词和名称中。
- Setswana正字法不明确表示语言声音系统中的所有不同元音。
- Setswana还区分音节的高低音调,这在正字法中未标记。
搜集汇总
数据集介绍

构建方式
Multi-speaker Setswana TTS corpus 是一个旨在研究使用多个声音实现文本到语音(TTS)系统的语料库。该语料库的构建采用了非专业的志愿者,在非正式的录音环境中进行录制,以低成本的方式完成。录音在南非的Potchefstroom进行,使用的是西北大学校园内的志愿者,时间为2016年第一季度。
特点
该数据集的特点包括:采用多个说话人的录音,以覆盖 Setswana 语言的音素多样性;包含了 Setswana 和英语的句子,用于文本到语音系统的训练和评估;提供了正则和异常发音词典,以及针对特定说话人的发音变体;录音未经后期处理,保留了原始的音频特性,适用于进一步的研究和开发。
使用方法
使用该数据集时,用户可以从提供的子目录中获取字典、录音和转录文本。字典中包含了音素集合和标准、异常及说话人特定的发音。录音为 FLAC 格式,转录文本有原始和规范化的两种版本。在使用前,可能需要对录音进行增益标准化和去混响处理。用户应遵循发音词典和转录文本的规范,以确保文本到语音转换的准确性。
背景与挑战
背景概述
Multi-speaker Setswana TTS corpus 数据集是专注于Setswana语的多说话人文本到语音(TTS)语料库。该语料库的创建旨在探索使用低成本过程(即使用非专业志愿者和非正式录音环境)实现TTS系统的实施。该数据集由南非Potchefstroom的North-West University的志愿者于2016年第一季度录制而成。研究团队通过该语料库对TTS系统在多个声音应用中的性能进行了深入研究,其研究成果对于推动非洲语言TTS技术的发展具有重要意义。
当前挑战
该数据集在构建过程中遇到了多个挑战。首先,由于使用的是非专业志愿者和非正式录音环境,录音质量参差不齐,需要对音频进行后期处理,如增益归一化和去混响滤波。其次,语料库中的词汇标注和发音字典的构建需要考虑到语言特有的发音规则和特殊词汇的发音,这在自动化处理中是一大挑战。此外,由于Setswana语的拼写规则不明确,导致图到音的转换规则提取困难。最后,语料库中的文本资源来源于不同渠道,需要进行适当的预处理和校验以确保数据的一致性和准确性。
常用场景
经典使用场景
Multi-speaker Setswana TTS corpus乃是一个旨在研究利用多重语音构建文本转语音(TTS)系统的数据集。其经典使用场景在于,通过该数据集,研究人员能够分析和比较不同说话者在非专业录制环境下的语音特征,进而优化TTS系统的语音合成质量和自然度。
解决学术问题
该数据集解决了在低成本条件下构建高质量TTS系统的学术研究问题,为研究者在有限资源下开发适用于小众语言的TTS技术提供了可能,对于推动语音合成技术的普及和多元化具有重要意义。
衍生相关工作
基于此数据集,衍生出了一系列相关研究工作,如探索不同语言环境下的TTS系统构建、语音识别和自然语言处理等,进一步推动了语音和语言处理领域的技术进步和理论发展。
以上内容由遇见数据集搜集并总结生成



