five

OpenSinger

收藏
arXiv2021-12-20 更新2024-06-21 收录
下载链接:
https://Multi-Singer.github.io/
下载链接
链接失效反馈
资源简介:
OpenSinger是由浙江大学发布的大规模多歌手中文歌唱语音数据集,旨在解决高保真歌唱语音合成中的数据稀缺问题。该数据集包含50小时的专业歌手录音,涵盖41位女性和25位男性的歌唱表演,所有录音均在专业录音棚完成,确保高质量无噪音。OpenSinger不仅规模大,质量高,而且是首个公开的中文多歌手歌唱语音数据集,适用于多种歌唱语音合成研究。数据集的创建过程包括精心挑选歌曲、组织专业歌手录音,并由专业团队进行标注和处理,确保数据的准确性和可用性。该数据集主要用于推动歌唱语音合成技术的发展,特别是在多歌手模型和未见歌手模型的合成质量提升方面。

OpenSinger is a large-scale multi-singer Chinese singing speech dataset released by Zhejiang University, aiming to address the data scarcity issue in high-fidelity singing voice synthesis. This dataset contains 50 hours of recordings from professional singers, covering singing performances by 41 female and 25 male artists, with all recordings conducted in professional recording studios to ensure high-quality and noise-free audio. Not only is OpenSinger large-scale and high-quality, but it is also the first publicly available Chinese multi-singer singing speech dataset, suitable for a variety of singing voice synthesis research. The dataset creation process includes carefully selecting songs, organizing recording sessions with professional singers, as well as annotation and processing by a professional team to ensure the accuracy and usability of the data. This dataset is primarily used to promote the development of singing voice synthesis technology, especially in improving the synthesis quality of multi-singer models and unseen singer models.
提供机构:
浙江大学
创建时间:
2021-12-20
搜集汇总
数据集介绍
main_image_url
构建方式
OpenSinger数据集的构建过程详尽考虑了歌唱语音合成的需求。首先,数据集收集了93位专业歌手录制的流行歌曲,共计50小时,采样率为24 kHz,量化精度为16位。这些数据均在专业录音室录制,确保了高质量。随后,数据集经过了严格的处理,包括静音修剪、音频分割和文本对齐等步骤,以满足训练神经网络模型的需求。分割后的音频片段长度被限制在0-11秒之间,以确保GPU计算资源得到有效利用。最后,通过蒙特利尔强制对齐器进行精确对齐,为后续的声学模型训练提供了基础。
特点
OpenSinger数据集具有以下几个显著特点:首先,它是开源的,有助于推动歌唱语音合成领域的研究。其次,数据集规模庞大,是目前为止最大的中文多歌手歌唱语音语料库。最后,数据集的质量高,所有音频均由专业歌手在专业录音室录制,无噪音或背景声干扰,为高保真歌唱语音合成提供了优质的数据基础。
使用方法
使用OpenSinger数据集进行歌唱语音合成研究时,首先需要准备合适的声学模型和声码器。声学模型负责将音乐乐谱和歌词信息转换为声学特征,而声码器则负责将声学特征转换为音频波形。在训练过程中,可以使用OpenSinger数据集进行预训练,以提高模型的泛化能力。同时,还可以结合Multi-Singer声码器,利用其多频带生成器、歌手条件判别器和辅助感知损失等特性,进一步提升歌唱语音合成的速度和质量。
背景与挑战
背景概述
OpenSinger数据集是由浙江大学的研究团队于2021年发布的一个大规模、多歌手的中文歌唱声音数据集。该数据集的创建旨在解决神经网络在歌唱声音合成中面临的挑战,如歌唱声音数据短缺、有限歌手泛化能力和巨大的计算成本。OpenSinger数据集包含来自93位歌手的流行歌曲,共计50小时的歌唱声音,并采用24 kHz采样率和16位量化。该数据集具有开源、大规模和高品质的特点,为歌唱声音合成研究提供了宝贵的资源。OpenSinger数据集的发布,对相关领域的研究产生了重要的影响,为歌唱声音合成的研究提供了新的方向和可能性。
当前挑战
OpenSinger数据集在解决歌唱声音合成领域问题的同时,也面临着一些挑战。首先,歌唱声音合成系统需要大量的高质量数据进行训练,而高质量的歌唱声音数据往往由专业歌手录制,其录制和标注成本高昂,限制了研究人员获取大规模数据集的能力。其次,在有限计算资源的情况下,歌唱声音合成系统的生成速度和计算成本需要进一步考虑。此外,歌唱声音合成系统在多歌手建模方面存在困难,不同歌手的音色、表情和风格差异较大,当应用于未见歌手的建模时,合成歌唱声音的质量会有明显的下降。为了克服上述问题,研究人员提出了Multi-Singer,一个基于生成对抗网络的快速多歌手歌唱声音声码器。Multi-Singer采用多频段生成器、歌手条件判别器和条件对抗训练目标,以及辅助歌手感知损失等方法,有效地解决了歌唱声音合成中多歌手建模的难题。
常用场景
经典使用场景
OpenSinger 数据集在歌唱语音合成研究中扮演着重要角色。其经典使用场景包括:1) 语音合成系统的训练和评估,通过对比不同模型在 OpenSinger 上的表现,研究者可以更好地理解模型的优势和局限性;2) 歌唱语音特征提取和建模,OpenSinger 提供了丰富的歌唱语音数据,有助于研究者探索歌唱语音的特征和规律;3) 歌唱语音风格转换,利用 OpenSinger 中的多歌手数据,研究者可以开发出更精确的歌唱语音风格转换模型。
实际应用
OpenSinger 数据集在实际应用场景中具有广泛的应用前景。首先,OpenSinger 可以用于开发高质量的歌唱语音合成系统,为音乐软件、音乐盒等应用提供高质量的歌唱语音。其次,OpenSinger 可以用于歌唱语音风格转换,实现歌唱语音的个性化定制。最后,OpenSinger 还可以用于歌唱语音特征提取和建模,为歌唱语音识别、歌唱语音分离等任务提供支持。
衍生相关工作
OpenSinger 数据集衍生了一些相关的经典工作。例如,基于 OpenSinger 的 Multi-Singer 模型,通过引入多频段生成器、歌手条件判别器和条件对抗训练目标,实现了快速、高质量的歌唱语音合成。此外,OpenSinger 还推动了歌唱语音特征提取和建模的研究,为歌唱语音识别、歌唱语音分离等任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作