JVS corpus

Name: JVS corpus
Creator: 东京大学信息科学与技术研究生院
Published: 2019-08-17 14:04:46
License: 暂无描述

arXiv2019-08-17 更新2024-06-21 收录

下载链接：

https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

JVS corpus是由东京大学信息科学与技术研究生院开发的一个免费日语多说话者语音数据集。该数据集包含100位专业日语说话者的语音数据，涵盖正常、耳语和假声三种风格，总计30小时语音数据。数据集的创建过程包括在专业录音室中由声音导演控制的高质量录音，并提供了包括转录、性别信息、F0范围、说话者相似度和音素对齐等多种标签。JVS corpus主要应用于语音合成研究，旨在通过多说话者和多风格语音数据推动语音合成技术的发展。

The JVS corpus is a free Japanese multi-speaker speech dataset developed by the Graduate School of Information Science and Technology at the University of Tokyo. This dataset contains speech data from 100 professional Japanese speakers, covering three speaking styles: normal, whispered, and falsetto, with a total of 30 hours of speech content. The dataset was created through high-quality recordings conducted in a professional recording studio under the supervision of a sound director, and provides various labels including transcriptions, gender information, F0 range, speaker similarity, and phoneme alignments. The JVS corpus is primarily applied to speech synthesis research, aiming to advance the development of speech synthesis technologies via multi-speaker and multi-style speech data.

提供机构：

东京大学信息科学与技术研究生院

创建时间：

2019-08-17

搜集汇总

数据集介绍

构建方式

JVS corpus数据集的构建旨在满足语音合成研究的广泛需求，特别是针对多说话人和多风格语音的研究。该数据集包含100位日本本土专业说话人的语音数据，每位说话人分别以正常、耳语和假声三种风格发声。数据集包含30小时的语音数据，其中22小时为平行正常语音。为了确保录音质量，所有录音均在专业录音室由专业音响导演控制下完成，原始采样率为48kHz，后降采样至24kHz，并以16位RIFF WAV格式编码。录音内容包括100位说话人的100个平行正常语音句子，30个非平行正常语音句子，10个耳语音句和10个假声音句。

特点

JVS corpus数据集的特点主要体现在以下几个方面：首先，该数据集包含多种风格的语音数据，包括正常、耳语和假声，这使得数据集适用于更广泛的语音研究，如语音转换和多说话人建模。其次，数据集包含大量说话人，共有100位日本本土专业说话人，这为研究提供了丰富的数据资源。此外，数据集还包含并行和非并行语音，以及大量的标签信息，如语音转录、性别信息、基频范围、说话人相似度和音素对齐等。最后，数据集以高质量的格式提供，音频文件采样率为24kHz，编码为16位，并以RIFF WAV格式存储。

使用方法

JVS corpus数据集的使用方法如下：首先，用户可以从项目页面下载数据集，数据集以压缩文件的形式提供。下载后，用户需要解压缩文件并按照目录结构访问数据。数据集的目录结构包括四个子数据集：parallel100（包含100个平行正常语音句子）、nonpara30（包含30个非平行正常语音句子）、whisper10（包含10个耳语音句）和Falsetto10（包含10个假声音句）。每个子数据集都包含音频文件、转录文本和音素对齐信息。用户可以根据研究需要选择相应的子数据集进行使用。此外，数据集还提供了说话人相似度、基频范围和语音时长等标签信息，用户可以根据需要使用这些信息进行进一步的分析和研究。

背景与挑战

背景概述

随着机器学习技术的进步，特别是深度学习的发展，语音合成已经成为一个重要的研究领域。为了加速语音合成研究，需要大量的语音数据集。2017年，日本东京大学信息科学与技术研究生院的Takamichi等人发布了JSUT语料库，其中包含了10小时的单人朗读风格的语音数据，用于端到端的文本到语音合成。然而，为了更广泛地应用于语音合成研究，例如语音转换和多说话人建模，他们构建了JVS语料库，该语料库包含100位说话人的三种风格（正常、耳语和假声）的语音数据。该语料库包含30小时的语音数据，包括22小时的并行正常语音。JVS语料库的设计旨在为多种类型的用户提供高质量、易于访问的语音数据，以推动语音合成研究的发展。

当前挑战

JVS语料库面临的挑战主要包括：1)构建过程中需要确保语音数据的质量和多样性，以满足不同研究需求；2)语料库的构建需要大量的人力和时间投入，以及对专业录音设备和录音技术的需求；3)语料库的标注和整理需要专业的语音学和语言学知识，以保证数据的准确性和可用性；4)语料库的发布和共享需要遵守相关的法律法规和知识产权政策，以保护数据提供者和研究人员的权益。

常用场景

经典使用场景

JVS corpus 数据集作为一种多说话人、多风格的声音数据集，其经典使用场景涵盖了语音合成、语音转换、说话人分离等多个方面。该数据集提供了高质量的语音数据，包括正常、耳语和假声三种风格，以及平行和非平行两种类型的话语，使得研究者可以更全面地探索语音合成领域的各个方面。同时，该数据集也包含了丰富的标签信息，如音高范围、说话人相似度、语音持续时间等，为研究者提供了更多的研究可能性。

衍生相关工作

基于 JVS corpus 数据集，研究者们开展了一系列相关的研究工作。例如，有研究者利用 JVS corpus 数据集构建了多说话人语音合成模型，实现了高质量的语音合成；有研究者利用 JVS corpus 数据集构建了语音转换模型，实现了语音的个性化定制；还有研究者利用 JVS corpus 数据集构建了说话人分离模型，实现了多说话人语音信号的分离。这些研究工作都取得了显著的成果，为语音合成领域的发展做出了重要的贡献。

数据集最近研究