PJS: phoneme-balanced Japanese singing voice corpus

Name: PJS: phoneme-balanced Japanese singing voice corpus
Creator: 明治大学和东京大学信息科学与技术研究生院
Published: 2020-06-04 23:41:00
License: 暂无描述

arXiv2020-06-04 更新2024-06-21 收录

下载链接：

https://sites.google.com/site/shinnosuketakamichi/research-topics/pjs_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

PJS是一个由明治大学和东京大学信息科学与技术研究生院创建的日语歌唱语音平衡数据集，包含100条语音数据。数据集通过使用语音平衡的语音数据集来保证音素平衡，并采用CC BY-SA 4.0许可，确保数据可自由用于研究和商业用途。数据集不仅包含歌唱语音数据，还包含平行的语音数据和音乐信息，如旋律构成描述，适用于歌唱语音合成和自然语言音乐信息处理研究。此外，数据集还解决了现有数据集存在的版权和数据不平衡问题，为机器学习提供了易于训练的小型数据集。

PJS is a balanced Japanese singing speech dataset developed by Meiji University and the Graduate School of Information Science and Technology, The University of Tokyo, containing 100 speech samples. It ensures phonemic balance through a phonetically balanced dataset design, and is licensed under CC BY-SA 4.0, allowing free use for both research and commercial purposes. In addition to singing speech data, the dataset also includes parallel speech data and musical information such as melody composition descriptions, making it applicable to research in singing voice synthesis and natural language-driven musical information processing. Furthermore, this dataset resolves the copyright and data imbalance problems existing in current datasets, providing a compact and easily trainable small-scale dataset for machine learning.

提供机构：

明治大学和东京大学信息科学与技术研究生院

创建时间：

2020-06-04

搜集汇总

数据集介绍

构建方式

在歌唱语音合成领域，数据集的构建质量直接影响模型的泛化能力。PJS语料库的构建过程体现了对音素平衡性的严谨追求。研究团队以音素平衡的日语口语语料库为基础，从中选取100个句子作为歌词，并由一位具备音乐背景的母语者进行旋律创作。录音环节在简易隔音室内完成，采用专业麦克风与音频接口，确保信号质量；同时录制了与歌唱内容平行的口语语音，形成配对数据。所有音频以48kHz采样率、24位深度保存，并附有MIDI、MusicXML及文本描述文件，为后续研究提供了多维度的参考信息。

使用方法

该数据集适用于歌唱语音合成、歌唱-口语转换及音乐信息检索等多个研究方向。用户可通过项目页面下载完整数据，每个句子目录包含歌唱与口语的WAV文件、MIDI引导旋律、MusicXML乐谱及文本描述。在模型训练中，研究者可利用平行数据探索歌唱与口语声学特征的差异；乐谱信息有助于开发音符-音节对齐算法。鉴于其音素平衡特性，该数据集尤其适合训练轻量级合成模型，以减少因数据偏斜导致的音素缺失问题。使用时应结合附带的元数据，充分考虑其节奏与调性分布特点，以优化实验设计。

背景与挑战

背景概述

在音乐信息处理与歌声合成领域，高质量数据集的构建是推动技术发展的基石。PJS（音素平衡日语歌声）语料库由明治大学与东京大学的研究团队于2020年共同创建，旨在解决现有歌声数据集中普遍存在的音素不平衡与版权限制两大核心问题。该语料库基于音素平衡的日语语音语料库设计旋律，包含100个句子的歌声与平行语音录音，并采用CC BY-SA 4.0许可协议，显著提升了歌声合成研究的可重复性与应用广度。其创新性不仅体现在音素平衡的保障上，还通过提供详细的作曲描述与多格式音乐文件，为跨领域研究如语音-歌声转换提供了宝贵资源。

当前挑战

PJS语料库面临的挑战主要集中于领域问题与构建过程两方面。在领域层面，歌声合成需克服音素不平衡导致的合成语音缺失问题，传统数据集往往忽视音素分布，影响模型训练的全面性；同时，版权限制阻碍了数据的共享与商用，制约了研究的可扩展性。构建过程中，研究者需在有限资源下设计音素平衡的旋律，确保音乐多样性（如调性与节奏分布），并处理日语歌词与音符的非一一对应关系，例如多音节音符的切分问题。此外，录音环境需平衡简易隔音与噪声控制，以保障音频质量的一致性。

常用场景

经典使用场景

在歌唱语音合成领域，PJS语料库以其音素平衡特性，成为训练高质量日语歌唱合成模型的经典资源。研究者利用该数据集构建深度神经网络模型，如基于前馈、循环或自回归架构的系统，以生成自然流畅的歌唱语音。其音素平衡设计确保了合成语音中各类音素的均匀覆盖，有效避免了传统歌唱语料库因数据不平衡导致的音素缺失问题，从而提升了合成语音的清晰度与自然感。

解决学术问题

PJS语料库主要解决了歌唱语音合成研究中的两大核心问题：音素不平衡与版权限制。通过基于音素平衡的说话语音语料库构建旋律，该数据集保证了音素分布的均衡性，克服了以往歌唱语料库在音素覆盖上的不足。同时，采用CC BY-SA 4.0许可协议，使得数据可合法共享，促进了研究的可重复性与广泛应用。这些贡献推动了歌唱合成技术在语音质量与数据可及性方面的进步。

实际应用

在实际应用中，PJS语料库被广泛用于开发商业与开源歌唱合成系统，如Sinsy和NEUTRINO等产品。其音素平衡特性使得合成系统能够适应多样化的歌曲风格与节奏，从流行音乐到动漫歌曲，提升了合成语音的适用性。此外，数据集包含的并行说话与歌唱语音数据，支持说话-歌唱转换研究，为音乐信息处理与语音交互应用提供了坚实基础。

数据集最近研究