Opencpop

Name: Opencpop
Creator: 西北工业大学计算机学院音频、语音与语言处理组(ASLP@NPU)，网易公司伏羲AI实验室
Published: 2022-01-20 10:08:47
License: 暂无描述

arXiv2022-01-20 更新2024-06-21 收录

下载链接：

https://wenet.org.cn/opencpop/

下载链接

链接失效反馈

官方服务：

资源简介：

Opencpop是一个专为歌唱语音合成(SVS)设计的高质量开源中文流行歌曲数据集，由西北工业大学和网易公司伏羲AI实验室共同创建。该数据集包含100首由专业女歌手演唱的流行中文歌曲，音频以44,100 Hz的采样率录制，并提供了相应的歌词和乐谱。所有歌唱录音都进行了语音学标注，包括音素边界和音节（音符）边界。数据集的创建过程涉及歌曲选择、录音、标注和后处理等多个步骤，旨在为SVS研究提供一个可靠的基准。Opencpop的应用领域包括虚拟角色和艺术创作等，旨在解决中文SVS领域的高质量数据集缺乏问题。

Opencpop is a high-quality open-source Chinese pop song dataset specifically designed for singing voice synthesis (SVS), co-created by Northwestern Polytechnical University and NetEase Fuxi AI Lab. This dataset includes 100 popular Chinese songs performed by professional female singers, with audio recorded at a sampling rate of 44,100 Hz, and accompanying corresponding lyrics and musical scores. All singing recordings have undergone phonetic annotations, including phoneme boundaries and syllable (note) boundaries. The dataset's creation process covers multiple steps such as song selection, recording, annotation and post-processing, aiming to provide a reliable benchmark for SVS research. The application scenarios of Opencpop include virtual character creation and artistic creation, etc., and it is designed to address the shortage of high-quality datasets in the Chinese SVS field.

提供机构：

西北工业大学计算机学院音频、语音与语言处理组(ASLP@NPU)，网易公司伏羲AI实验室

创建时间：

2022-01-19

搜集汇总

数据集介绍

构建方式

Opencpop数据集的构建过程详尽而精细。首先，从多个中国流行歌曲排行榜中挑选了300首歌曲，经过筛选，最终选择了100首具有足够音节和每分钟节拍（BPM）覆盖率的流行歌曲进行录制。录音在专业录音室进行，确保了音频质量，并采用44,100 Hz的采样率录制。随后，对录音进行了详细的标注，包括音符音高、音符边界、音素边界、音节边界、单词边界、句子边界以及音符是否为连音的指示。标注过程采用了半自动化的方法，结合了Logic Pro和Praat软件，以及专业标注人员的参与。最后，将录音分割成更小的片段，以便于SVS系统的训练，并设置了测试集和训练集。

特点

Opencpop数据集的特点在于其高质量和详细的标注。该数据集包含了100首由专业女歌手演唱的流行歌曲，所有音频均以44,100 Hz的采样率录制，总时长约为5.2小时。数据集的标注信息丰富，包括音素边界、音符边界等，为SVS模型的训练提供了准确的基础。此外，数据集的BPM分布广泛，覆盖了从40到130的BPM值，使得基于Opencpop训练的系统能够处理各种BPM条件。音符音高和音素的分布也较为均匀，能够满足SVS系统对各种音素的处理需求。

使用方法

Opencpop数据集的使用方法涉及多个步骤。首先，用户需要将数据集下载到本地。然后，可以使用数据集中的音频和标注信息进行SVS模型的训练。在训练过程中，可以根据需要选择不同的模型，如Fastspeech2、HiFi-GAN等。训练完成后，可以使用测试集对模型进行评估，包括客观指标和主观评价。此外，用户还可以使用数据集中的音频进行语音合成，生成高质量的歌唱声音。Opencpop数据集的发布，为SVS领域的研究和应用提供了重要的资源。

背景与挑战

背景概述

Opencpop数据集是一个高质量的开源中文流行歌曲语料库，专门为歌唱语音合成（SVS）任务设计。该数据集由王宇、王晓升、朱鹏程等研究人员共同创建，并由西北工业大学计算机科学与技术学院的音频、语音和语言处理小组（ASLP@NPU）以及网易伏羲AI实验室提供支持。数据集包含由一位专业女歌手演唱的100首流行中文歌曲，录音质量达到专业级别，采样率为44,100 Hz，并提供相应的歌词和乐谱。所有演唱录音均经过音素边界和音节（音符）边界的语音标注。为了证明所发布数据的可靠性并为进一步研究提供基准，研究人员建立了基于深度神经网络的SVS模型，并使用客观指标和主观平均意见得分（MOS）进行评估。实验结果表明，在Opencpop数据库上训练的最佳SVS模型实现了3.70的MOS，证明了所提供语料库的可靠性。Opencpop已被开源社区WeNet1发布，语料库以及合成的演示可以在项目主页2上找到。该数据集的创建对于推动中文SVS技术的发展具有重要意义，为相关研究提供了高质量的数据资源。

当前挑战

Opencpop数据集的创建面临的主要挑战包括：1) 语音合成领域的挑战，特别是歌唱语音合成（SVS）需要处理与普通语音合成不同的音乐信息，如音符和节奏，这使得SVS模型的设计和训练更加复杂；2) 数据集构建过程中的挑战，例如，高质量SVS语料库的标注需要专业人员进行音素边界和音节边界的语音标注，这需要大量的人力和时间投入。此外，由于歌唱语音与乐谱的精确对齐难度较大，因此需要手动后处理，如声音塑形或乐谱重新标注，这进一步增加了数据集构建的难度。尽管存在这些挑战，Opencpop数据集的创建仍然为SVS研究提供了重要的数据资源，并为未来研究提供了基准性能。

常用场景

经典使用场景

Opencpop数据集，作为一款高质量的开源中文流行歌曲语料库，其经典的使用场景主要集中于歌唱语音合成（SVS）领域。该数据集包含了100首由专业女歌手演唱的中文流行歌曲，录音质量达到专业录音室标准，采样率为44,100 Hz。同时，每首歌曲都提供了对应的歌词和乐谱，并对语音进行了音素边界和音节（音符）边界的标注。这些丰富的标注信息使得Opencpop数据集成为训练和评估SVS模型的重要资源。

衍生相关工作

Opencpop数据集的发布也衍生出了一系列相关的工作。例如，一些研究者使用Opencpop数据集训练了基于深度神经网络的SVS模型，并取得了较好的效果。此外，Opencpop数据集还被用于评估和比较不同的SVS模型，推动了该领域的技术发展。

数据集最近研究