Path Nirvana Sinhala TTS Dataset

github2024-04-11 更新2024-05-31 收录

下载链接：

https://github.com/pnfo/sinhala-tts-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Path Nirvana Sinhala TTS数据集是一个高质量的多说话人Sinhala语言数据集，专为深度学习算法训练文本到语音算法设计。该数据集包含6248个句子，总录音时长为13.8小时，由两位说话人录制，旨在帮助解决Sinhala语言TTS数据集的不足问题。

The Path Nirvana Sinhala TTS dataset is a high-quality, multi-speaker dataset in the Sinhala language, specifically designed for training text-to-speech algorithms using deep learning techniques. This dataset comprises 6,248 sentences, totaling 13.8 hours of recordings, contributed by two speakers. It aims to address the scarcity of Sinhala language TTS datasets.

创建时间：

2021-02-18

原始信息汇总

数据集概述

基本信息

名称: Path Nirvana Sinhala TTS Dataset
目的: 用于训练文本到语音（TTS）算法的深度学习模型
语言: 僧伽罗语
录音数量: 6248
总时长: 13.7小时
录音时长范围: 2秒至15秒
样本率: 22050Hz, 16-bit PCM

录音内容

多说话人: 包含男性和女性说话人
- 男性: Ven. Mettananda，约5200个语音片段，时长约11.8小时
- 女性: Mrs. Oshadi，约1000个语音片段，时长约2小时
特点: 包含僧伽罗语中罕见的音节，特别是源自梵语和巴利语的音节

数据集版本

v2.0:
- 总标签数: 6449
- 总时长: 13.9小时
- 平均长度: 7.78秒
- 使用标签数: 6248
- 使用时长: 13.7小时
- 平均长度: 7.89秒
- 独特字符数: 54罗马字符
v2.1:
- 总标签数: 6449
- 总时长: 13.9小时
- 平均长度: 7.78秒
- 使用标签数: 6386
- 使用时长: 13.8小时
- 平均长度: 7.77秒
- 独特字符数: 54罗马字符

使用说明

下载: 可通过Releases下载压缩的tar文件，内含所有音频片段的wavs文件夹

附加信息

元数据: 包含metadata.csv文件，记录了符合ljspeech格式的短于15秒的录音子集
许可证: 根据LICENSE.txt文件，使用GPL许可证，仅允许非淫秽、非冒犯性的语音生成

历史版本

旧版本: 包含约7小时的单说话人语音，已移至old dataset文件夹

搜集汇总

数据集介绍

构建方式

Path Nirvana Sinhala TTS Dataset 是为斯里兰卡僧伽罗语设计的文本到语音转换数据集，旨在填补该语言在公共可用TTS数据集方面的空白。该数据集于2023年第二季度录制，包含6248个句子，总计13.8小时的录音，涵盖了两位不同性别的发音者：一位男性僧侣和一位女性。录音过程中特别注意捕捉了僧伽罗语中罕见的音节，尤其是源自梵文和巴利文的音节，以确保语言的多样性和复杂性。录音文件经过处理，去除了开头和结尾的静音部分，并以22050Hz的采样率和16位PCM编码保存，与`ljspeech`数据集格式一致。

特点

该数据集的显著特点在于其高质量的多发音者录音，涵盖了僧伽罗语中多种复杂的音节组合，特别适合用于深度学习算法的训练。数据集包含两位发音者，分别为11.8小时的男性录音和2小时的女性录音，提供了性别多样性。此外，数据集还特别处理了罕见的音节，确保了语言的全面覆盖。录音文件格式标准化，便于直接用于TTS模型的训练和评估。

使用方法

使用该数据集时，用户可以从GitHub的Releases页面下载压缩的tar文件，其中包含所有音频剪辑的`wavs`文件夹。数据集的元数据文件`metadata.csv`以`ljspeech`格式存储，便于直接用于TTS模型的训练。用户可以利用这些音频文件和对应的文本标注，训练和评估文本到语音转换模型。数据集的录音质量和多样性使其非常适合用于开发和优化僧伽罗语的TTS系统。

背景与挑战

背景概述

Path Nirvana Sinhala TTS Dataset是由Path Nirvana Foundation于2023年第二季度创建的高质量多说话人语音数据集，专门用于斯里兰卡僧伽罗语的文本到语音（TTS）算法训练。该数据集包含6248个句子，总计13.8小时的录音，涵盖了两位说话人：一位男性僧侣和一位女性。该数据集的创建旨在填补僧伽罗语TTS数据集的空白，特别是针对深度学习算法的需求。通过精心设计，数据集不仅包含了常用词汇，还特别捕捉了源自梵文和巴利文的罕见音节，从而为僧伽罗语的语音合成研究提供了丰富的资源。

当前挑战

Path Nirvana Sinhala TTS Dataset在构建过程中面临了多个挑战。首先，僧伽罗语作为一种资源相对较少的语言，缺乏足够的公开可用TTS数据集，这使得数据集的创建尤为重要。其次，数据集中包含了源自梵文和巴利文的罕见音节，这些音节的捕捉和准确录音增加了数据集的复杂性。此外，尽管数据集经过了精心处理，但仍可能存在录音与文本不匹配的错误，这需要进一步的校验和社区贡献来完善。最后，数据集的使用受到许可限制，仅允许用于非冒犯性和非淫秽的语音生成，这在一定程度上限制了其应用范围。

常用场景

经典使用场景

Path Nirvana Sinhala TTS Dataset 主要用于训练基于深度学习的斯里兰卡僧伽罗语文本转语音（TTS）算法。该数据集包含6248个句子，总计13.8小时的录音，涵盖了两位不同性别的发音者，分别为男性僧侣Ven. Mettananda和女性发音者Mrs. Oshadi。其设计旨在弥补僧伽罗语TTS数据集的稀缺性，特别关注了该语言中罕见的音节，尤其是源自梵文和巴利文的音节。通过使用该数据集，研究者可以训练出高质量的多发音者TTS模型，从而提升僧伽罗语语音合成的自然度和准确性。

衍生相关工作

Path Nirvana Sinhala TTS Dataset 的发布激发了相关领域的研究兴趣，催生了一系列基于该数据集的经典工作。例如，研究者利用该数据集训练了VITS TTS模型，并展示了其在僧伽罗语语音合成中的优异表现。此外，该数据集还为多语言TTS模型的研究提供了宝贵的资源，推动了跨语言语音合成技术的进步。未来，随着更多研究者对该数据集的深入挖掘，预计将涌现出更多创新性的TTS算法和应用。

数据集最近研究