Chinese NNSVS Dataset

github2022-12-15 更新2024-05-31 收录

下载链接：

https://github.com/Archivoice/nnsvs-chinese-support

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在为NNSVS提供一个功能完备的中文语音合成数据集，包含创建数据集所需的所有文件和指导。数据集设计考虑了NNSVS的字符限制，结合了拼音和X-Sampa标准普通话，并增加了对闽南语/台湾话方言的支持。

This dataset is designed to provide a fully functional Chinese speech synthesis dataset for NNSVS, encompassing all necessary files and guidelines for dataset creation. The dataset is tailored to accommodate the character limitations of NNSVS, integrating Pinyin and X-Sampa standard Mandarin, and extends support to the Minnan/Taiwanese dialect.

创建时间：

2022-06-15

原始信息汇总

数据集概述

数据集名称

nnsvs-chinese-support

数据集目的

用于创建一个适用于NNSVS的完整功能性中文数据集，包括标注过程的额外说明和示例。

语音单元

语音单元基于标准普通话的拼音和X-Sampa，并增加了对闽南语/台湾话方言的支持。

数据量需求

高质量模型：约6小时以上音频（不含静音）
中等质量模型：2至3小时音频（不含静音）
原型测试：约1小时音频（不含静音）

文件说明

Phoneme Explanations.txt：包含所有中文语音单元的解释，其中粗体字表示语音单元的读音。
/dic 文件夹：包含为NNSVS制作的字典，支持拼音输入，以及由于闽南语/台湾话方言扩展语音单元支持而增加的日语支持。

配置文件

训练使用的hed文件可通过/train/config.yaml更改。
训练模型时，/conf/train/*/model/*.yaml中的in_dim值必须根据所选hed文件进行相应调整。

额外信息

提供的hed文件专为NNSVS编写，可能不适用于其他平台。
包含两个hed文件：完整长度和最小长度，建议使用完整长度的hed文件。

次要数据集

数据集名称

nnsvs-korean-sub-language-support

数据集目的

允许中文数据库用于演唱韩语，非官方语言支持，可能存在质量问题。

字典说明

korean.table：基于罗马化的韩文字典，用于简化输入。
某些元音因发音限制被移除，如ㅐ, ㅒ, ㅙ, 和 ㅚ。

使用示例

演示了使用此字典的测试声音ACV-M1演唱的歌曲“Way Back Home”。

搜集汇总

数据集介绍

构建方式

Chinese NNSVS Dataset的构建基于对标准普通话和闽南语/台湾方言的音素集的定制设计，结合了拼音和X-Sampa的混合使用，以适应NNSVS的字符限制。数据集的构建过程中，特别编写了适用于NNSVS的hed文件，并提供了详细的标注指导和示例。此外，数据集还包括一个为NNSVS定制的词典，支持拼音输入，并额外支持日语输入，以利用为闽南语/台湾方言扩展的音素支持。

特点

该数据集的显著特点在于其音素集的定制性和多样性，不仅涵盖了标准普通话的音素，还加入了闽南语/台湾方言的音素，增强了数据集的语言覆盖范围。此外，数据集提供了两种hed文件选择，一种是全长的，另一种是简化的，用户可以根据需求选择使用。数据集还包含一个详细的音素解释文件，帮助用户理解每个音素的使用和发音。

使用方法

使用Chinese NNSVS Dataset时，用户可以通过修改config.yaml文件来选择不同的hed文件进行训练。训练过程中，需要根据所选hed文件调整`in_dim`值，以确保训练的正确进行。数据集还提供了一个辅助的韩语子语言支持词典，允许现有的中文数据库用于韩语演唱，尽管这并非官方支持，但可以扩展数据集的应用范围。

背景与挑战

背景概述

Chinese NNSVS Dataset是由相关研究人员和机构创建的，旨在为NNSVS（Neural Network Singing Voice Synthesis）系统提供一个功能齐全的中文数据集。该数据集的创建考虑了NNSVS的字符限制，结合了拼音和X-Sampa标准普通话音素集，并额外支持了闽南语/台湾方言的音素。数据集的构建不仅包括音频数据，还提供了详细的标注文件和示例，以便于后续的模型训练和应用。此外，数据集还包含了一个专门为NNSVS编写的hed文件，以及一个用于拼音输入的词典，极大地简化了输入过程。该数据集的创建对于推动中文语音合成技术的发展具有重要意义，尤其是在多音调和多语言支持方面。

当前挑战

Chinese NNSVS Dataset在构建过程中面临了多项挑战。首先，音素集的设计需要兼顾普通话和闽南语/台湾方言的语音特性，这增加了音素选择的复杂性。其次，由于目前没有预训练模型可用，数据集的音频数据量要求较高，至少需要2到3小时的音频数据才能构建一个质量较好的模型，这对数据收集和处理提出了较高的要求。此外，hed文件的编写和配置需要精确调整，以确保训练过程中的参数设置正确，避免训练失败。最后，尽管数据集支持中文和部分日语输入，但跨语言的兼容性和发音准确性仍需进一步优化，以确保合成语音的自然度和准确性。

常用场景

经典使用场景

Chinese NNSVS Dataset 主要用于构建基于神经网络的语音合成系统，特别是在标准普通话和台湾方言的语音合成领域。该数据集通过结合拼音和X-Sampa音标，提供了丰富的音素集，支持复杂的语音合成任务。其经典使用场景包括创建高质量的语音合成模型，尤其是在需要处理多种语言和方言的复杂语音合成项目中。

实际应用

在实际应用中，Chinese NNSVS Dataset 被广泛用于开发智能语音助手、语音翻译系统和多媒体内容生成工具。例如，它可以用于创建支持多种语言的语音合成引擎，使得用户能够以自然的方式与系统交互。此外，该数据集还支持在娱乐产业中创建虚拟歌手，提供高质量的语音合成服务。

衍生相关工作

基于Chinese NNSVS Dataset，许多研究工作集中在改进语音合成模型的性能和多样性上。例如，有研究探讨了如何利用该数据集中的音素信息来提高模型的跨语言适应性。此外，还有工作专注于优化数据集的标注过程，以提高训练效率和模型精度。这些衍生工作不仅推动了语音合成技术的发展，也为相关领域的研究提供了宝贵的资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集