VocalnetOpenDataset

github2024-04-16 更新2024-05-31 收录

下载链接：

https://github.com/xushengyuan/VocalnetOpenDataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个开源的中文歌声合成数据集，包含完整或部分歌曲，共多条轨道。曲风整体偏向国风类音乐，部分歌曲含有戏腔唱段。数据集分为主数据集和用于训练nn-vocoder的零散音频两部分。

An open-source Chinese singing voice synthesis dataset, comprising complete or partial songs with multiple tracks. The musical style predominantly leans towards traditional Chinese music, with some songs featuring operatic singing segments. The dataset is divided into two parts: the main dataset and scattered audio files intended for training the nn-vocoder.

创建时间：

2019-07-13

原始信息汇总

VocalnetOpenDataset 概述

数据集描述

类型: 中文歌声合成数据集
许可: 采用Creative Commons Attribution Share Alike 4.0 International协议，允许商业使用和再发布，需署名。

音频特性

采样率: 32000Hz
位深: 16bit
声道: 单声道
音质: 录音室级，已进行噪声门处理
结构: 每首歌曲可能包含多条音轨

数据集内容

主数据集: 包含多首完整或部分歌曲，具体数量未提供。曲风偏向国风，部分含有戏腔唱段。
零散数据集: 去除静音后的总时长未提供，已拼合为单个音频文件，内容可能重复，未人工处理。

标注情况

现状: 部分手工对齐和句子划分已完成，使用Praat的TextGrid格式。
未来计划: 将完善标注并提供其他格式。

贡献机会

标注工作: 作者欢迎志愿者帮助完成剩余的标注工作。

搜集汇总

数据集介绍

构建方式

VocalnetOpenDataset 数据集的构建方式体现了对高质量音频数据的精心采集与处理。该数据集包含了多条音轨的完整或部分歌曲，采样率为32000Hz，16bit，单声道，确保了录音室级别的音质，并经过了噪声门处理以提升音频的纯净度。此外，数据集还分为两部分：主数据集和用于训练nn-vocoder的零散音频。主数据集涵盖了多种曲风，尤其是国风类音乐，部分歌曲还包含戏腔唱段，为研究者提供了丰富的音频素材。零散数据集则已拼合为单个音频文件，便于进一步处理和分析。

特点

VocalnetOpenDataset 数据集的显著特点在于其高质量的音频数据和多样化的内容。数据集不仅提供了录音室级别的音质，还包含了多种曲风，特别是国风类音乐，部分歌曲还带有戏腔唱段，为歌声合成研究提供了丰富的素材。此外，数据集的构建考虑了实际应用的需求，提供了去除静音后的音频，便于直接用于模型训练。数据集的开放性和多样性使其成为歌声合成领域的重要资源。

使用方法

VocalnetOpenDataset 数据集的使用方法灵活多样，适用于歌声合成及相关领域的研究。用户可以利用主数据集进行模型训练，尤其是针对国风类音乐的歌声合成。对于零散数据集，用户可以根据需要自行切割和处理，以适应不同的研究需求。数据集还提供了部分手工对齐和句子划分的标注，未来将完善并提供更多格式，便于研究者进行更精细的分析和模型训练。此外，数据集遵循Creative Commons Attribution Share Alike 4.0 International协议，允许用户进行商业用途的使用，但需对数据集进行署名。

背景与挑战

背景概述

VocalnetOpenDataset是一个专注于中文歌声合成研究的开源数据集，由xushengyuan和wenren于2019年创建。该数据集旨在为中文歌声合成领域的研究提供高质量的音频资源，涵盖多种曲风，特别是国风类音乐，并包含部分戏腔唱段。通过提供32000Hz采样率、16bit、单声道的录音室级音质音频，VocalnetOpenDataset为研究人员提供了一个标准化的数据平台，以推动中文歌声合成技术的发展。此外，数据集还包含了预训练的waveglow模型和部分手工对齐的标注，进一步支持了歌声合成模型的训练与优化。

当前挑战

尽管VocalnetOpenDataset为中文歌声合成研究提供了丰富的资源，但仍面临若干挑战。首先，数据集的标注工作尚未完全完成，尤其是音符音高的标注仍需进一步完善，这增加了模型训练的复杂性。其次，数据集中的曲风差异较大，特别是在国风类音乐与戏腔唱段之间，如何有效整合这些多样化的音频数据以提升模型的泛化能力是一个重要挑战。此外，由于版权问题，数据集未提供歌词，研究人员需自行收集，这可能影响歌声合成模型的整体性能。最后，数据集的构建过程中，音频的噪声处理和静音去除虽然已经完成，但如何确保这些处理步骤不影响音频的自然性和质量，仍需进一步研究和优化。

常用场景

经典使用场景

VocalnetOpenDataset 数据集在歌声合成领域展现出其独特的应用价值。该数据集主要用于训练和评估中文歌声合成模型，尤其是在国风类音乐的合成方面具有显著优势。通过利用该数据集，研究者可以开发出能够生成高质量、自然流畅的中文歌声的合成系统，从而推动歌声合成技术的发展。

衍生相关工作

基于 VocalnetOpenDataset 数据集，研究者们已经开展了多项相关工作。例如，有研究团队利用该数据集开发了新的歌声合成算法，显著提高了合成歌声的自然度和音质。此外，还有学者基于此数据集进行了跨语言歌声合成的探索，进一步拓展了数据集的应用范围，推动了歌声合成技术的边界。

数据集最近研究