five

Chinese NNSVS Dataset|语音合成数据集|中文方言数据集

收藏
github2022-12-15 更新2024-05-31 收录
语音合成
中文方言
下载链接:
https://github.com/Archivoice/nnsvs-chinese-support
下载链接
链接失效反馈
资源简介:
该数据集旨在为NNSVS提供一个功能完备的中文语音合成数据集,包含创建数据集所需的所有文件和指导。数据集设计考虑了NNSVS的字符限制,结合了拼音和X-Sampa标准普通话,并增加了对闽南语/台湾话方言的支持。

This dataset is designed to provide a fully functional Chinese speech synthesis dataset for NNSVS, encompassing all necessary files and guidelines for dataset creation. The dataset is tailored to accommodate the character limitations of NNSVS, integrating Pinyin and X-Sampa standard Mandarin, and extends support to the Minnan/Taiwanese dialect.
创建时间:
2022-06-15
原始信息汇总

数据集概述

数据集名称

  • nnsvs-chinese-support

数据集目的

  • 用于创建一个适用于NNSVS的完整功能性中文数据集,包括标注过程的额外说明和示例。

语音单元

  • 语音单元基于标准普通话的拼音和X-Sampa,并增加了对闽南语/台湾话方言的支持。

数据量需求

  • 高质量模型:约6小时以上音频(不含静音)
  • 中等质量模型:2至3小时音频(不含静音)
  • 原型测试:约1小时音频(不含静音)

文件说明

  • Phoneme Explanations.txt:包含所有中文语音单元的解释,其中粗体字表示语音单元的读音。
  • /dic 文件夹:包含为NNSVS制作的字典,支持拼音输入,以及由于闽南语/台湾话方言扩展语音单元支持而增加的日语支持。

配置文件

  • 训练使用的hed文件可通过/train/config.yaml更改。
  • 训练模型时,/conf/train/*/model/*.yaml中的in_dim值必须根据所选hed文件进行相应调整。

额外信息

  • 提供的hed文件专为NNSVS编写,可能不适用于其他平台。
  • 包含两个hed文件:完整长度和最小长度,建议使用完整长度的hed文件。

次要数据集

数据集名称

  • nnsvs-korean-sub-language-support

数据集目的

  • 允许中文数据库用于演唱韩语,非官方语言支持,可能存在质量问题。

字典说明

  • korean.table:基于罗马化的韩文字典,用于简化输入。
  • 某些元音因发音限制被移除,如ㅐ, ㅒ, ㅙ, 和 ㅚ。

使用示例

  • 演示了使用此字典的测试声音ACV-M1演唱的歌曲“Way Back Home”。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese NNSVS Dataset的构建基于对标准普通话和闽南语/台湾方言的音素集的定制设计,结合了拼音和X-Sampa的混合使用,以适应NNSVS的字符限制。数据集的构建过程中,特别编写了适用于NNSVS的hed文件,并提供了详细的标注指导和示例。此外,数据集还包括一个为NNSVS定制的词典,支持拼音输入,并额外支持日语输入,以利用为闽南语/台湾方言扩展的音素支持。
特点
该数据集的显著特点在于其音素集的定制性和多样性,不仅涵盖了标准普通话的音素,还加入了闽南语/台湾方言的音素,增强了数据集的语言覆盖范围。此外,数据集提供了两种hed文件选择,一种是全长的,另一种是简化的,用户可以根据需求选择使用。数据集还包含一个详细的音素解释文件,帮助用户理解每个音素的使用和发音。
使用方法
使用Chinese NNSVS Dataset时,用户可以通过修改config.yaml文件来选择不同的hed文件进行训练。训练过程中,需要根据所选hed文件调整`in_dim`值,以确保训练的正确进行。数据集还提供了一个辅助的韩语子语言支持词典,允许现有的中文数据库用于韩语演唱,尽管这并非官方支持,但可以扩展数据集的应用范围。
背景与挑战
背景概述
Chinese NNSVS Dataset是由相关研究人员和机构创建的,旨在为NNSVS(Neural Network Singing Voice Synthesis)系统提供一个功能齐全的中文数据集。该数据集的创建考虑了NNSVS的字符限制,结合了拼音和X-Sampa标准普通话音素集,并额外支持了闽南语/台湾方言的音素。数据集的构建不仅包括音频数据,还提供了详细的标注文件和示例,以便于后续的模型训练和应用。此外,数据集还包含了一个专门为NNSVS编写的hed文件,以及一个用于拼音输入的词典,极大地简化了输入过程。该数据集的创建对于推动中文语音合成技术的发展具有重要意义,尤其是在多音调和多语言支持方面。
当前挑战
Chinese NNSVS Dataset在构建过程中面临了多项挑战。首先,音素集的设计需要兼顾普通话和闽南语/台湾方言的语音特性,这增加了音素选择的复杂性。其次,由于目前没有预训练模型可用,数据集的音频数据量要求较高,至少需要2到3小时的音频数据才能构建一个质量较好的模型,这对数据收集和处理提出了较高的要求。此外,hed文件的编写和配置需要精确调整,以确保训练过程中的参数设置正确,避免训练失败。最后,尽管数据集支持中文和部分日语输入,但跨语言的兼容性和发音准确性仍需进一步优化,以确保合成语音的自然度和准确性。
常用场景
经典使用场景
Chinese NNSVS Dataset 主要用于构建基于神经网络的语音合成系统,特别是在标准普通话和台湾方言的语音合成领域。该数据集通过结合拼音和X-Sampa音标,提供了丰富的音素集,支持复杂的语音合成任务。其经典使用场景包括创建高质量的语音合成模型,尤其是在需要处理多种语言和方言的复杂语音合成项目中。
实际应用
在实际应用中,Chinese NNSVS Dataset 被广泛用于开发智能语音助手、语音翻译系统和多媒体内容生成工具。例如,它可以用于创建支持多种语言的语音合成引擎,使得用户能够以自然的方式与系统交互。此外,该数据集还支持在娱乐产业中创建虚拟歌手,提供高质量的语音合成服务。
衍生相关工作
基于Chinese NNSVS Dataset,许多研究工作集中在改进语音合成模型的性能和多样性上。例如,有研究探讨了如何利用该数据集中的音素信息来提高模型的跨语言适应性。此外,还有工作专注于优化数据集的标注过程,以提高训练效率和模型精度。这些衍生工作不仅推动了语音合成技术的发展,也为相关领域的研究提供了宝贵的资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录