VocalnetOpenDataset

github2020-12-28 更新2024-05-31 收录

下载链接：

https://github.com/Liu-Feng-deeplearning/VocalnetOpenDataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个开源的中文歌声合成数据集，包含多种国风类音乐，部分歌曲含有戏腔唱段。数据集分为主数据集和用于训练nn-vocoder的零散音频两部分。主数据集中包含多首完整或部分歌曲，共多条轨道。

An open-source Chinese singing voice synthesis dataset, encompassing a variety of traditional Chinese music styles, with some songs featuring operatic singing segments. The dataset is divided into two parts: the main dataset and scattered audio files for training the nn-vocoder. The main dataset includes multiple complete or partial songs, comprising numerous tracks.

创建时间：

2020-07-14

原始信息汇总

VocalnetOpenDataset 概述

数据集描述

类型: 中文歌声合成数据集
许可: 采用Creative Commons Attribution Share Alike 4.0 International协议，允许商业使用和再发布，但需对数据集进行署名。

音频特性

采样率: 32000Hz
位深度: 16bit
声道: 单声道
音质: 录音室级，已进行噪声门处理
组成: 每首歌曲可能包含多条音轨

数据集内容

主数据集:
- 包含多首完整或部分歌曲，具体数量未提供
- 曲风偏向国风，可能包含戏腔唱段
- 不提供歌词，需自行收集
零散数据集:
- 去除静音后的总时长未提供
- 已拼合为单个音频文件，可自行切割
- 内容可能重复，未经过人工处理

标注情况

已完成部分手工对齐和句子划分
使用Praat的TextGrid格式，未来将提供其他格式
标注工作正在进行中，欢迎志愿者贡献

搜集汇总

数据集介绍

构建方式

VocalnetOpenDataset的构建过程体现了对高质量音频数据的严格筛选与处理。该数据集以32000Hz采样率、16bit深度、单声道格式收录了录音室级别的音频，确保音质的高保真度。数据集分为主数据集和零散音频两部分，主数据集包含多首完整或部分歌曲，涵盖不同曲风，尤其是国风类音乐，部分歌曲还包含戏腔唱段。零散音频则经过静音去除处理，拼合为单个文件，供进一步切割使用。标注工作部分完成，采用Praat的TextGrid格式，未来计划提供更多格式支持。

特点

VocalnetOpenDataset的特点在于其多样化的曲风和高质量的音频数据。主数据集中的歌曲风格以国风为主，同时包含其他曲风，展现了丰富的音乐多样性。部分歌曲中的戏腔唱段为研究特定唱法提供了独特资源。零散音频数据集则提供了经过静音处理的音频片段，便于训练特定模型。此外，数据集以Creative Commons Attribution Share Alike 4.0 International协议共享，允许商业使用和模型发布，为研究者和开发者提供了极大的灵活性。

使用方法

VocalnetOpenDataset的使用方法灵活多样，适用于歌声合成、音色转换等研究领域。主数据集可用于训练歌声合成模型，尤其是针对国风音乐的合成任务。零散音频数据集则适合用于训练神经网络声码器（nn-vocoder），提升音频生成质量。用户可根据需求自行切割零散音频文件，或利用提供的TextGrid标注进行对齐和音符音高分析。数据集的开源协议允许用户将训练模型和合成音频用于商业用途，但需遵循署名要求。未来，随着标注工作的完善，数据集的应用范围将进一步扩展。

背景与挑战

背景概述

VocalnetOpenDataset是由xushengyuan和wenren于2019年创建的一个开源中文歌声合成数据集，旨在为中文歌声合成研究提供高质量的音频资源。该数据集包含录音室级别的音频，采样率为32000Hz，16bit，单声道，并经过噪声门处理。数据集分为主数据集和零散音频两部分，主数据集包含多首完整或部分歌曲，曲风以国风为主，部分歌曲包含戏腔唱段。该数据集的发布为中文歌声合成领域的研究提供了重要的数据支持，推动了该领域的技术发展。

当前挑战

VocalnetOpenDataset在构建过程中面临多重挑战。首先，数据集的标注工作尚未完全完成，尤其是音符音高的标注和句子划分仍需进一步完善，这对模型的训练和评估带来了不确定性。其次，由于版权限制，数据集未提供歌词，研究者需自行收集，增加了使用难度。此外，数据集中的曲风差异较大，部分歌曲包含戏腔唱段，可能对模型的泛化能力提出更高要求。最后，零散音频部分存在一定的重复内容，且未经过人工处理，可能影响数据质量。这些挑战需要在后续的研究和开发中逐步解决。

常用场景

经典使用场景

VocalnetOpenDataset作为一个开源的中文歌声合成数据集，广泛应用于歌声合成技术的研究与开发。该数据集特别适用于训练和评估基于深度学习的歌声合成模型，如WaveNet和WaveGlow等。研究者可以利用该数据集中的高质量音频数据，探索如何生成更加自然和逼真的歌声。

解决学术问题

VocalnetOpenDataset解决了中文歌声合成领域中高质量训练数据稀缺的问题。通过提供录音室级别的音频数据，该数据集为研究者提供了一个标准化的基准，用于比较不同歌声合成算法的性能。此外，数据集中的多样曲风和戏腔唱段也为研究者在不同音乐风格下的歌声合成提供了丰富的素材。

衍生相关工作

VocalnetOpenDataset的发布促进了多个相关领域的研究进展。基于该数据集，研究者开发了多种先进的歌声合成模型，如基于WaveNet的歌声合成器和基于WaveGlow的声码器。这些模型在学术界和工业界都得到了广泛应用，推动了歌声合成技术的发展。此外，该数据集还激发了更多关于中文歌声合成的研究，为未来的创新提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集