GTSinger

Name: GTSinger
Creator: 浙江大学
Published: 2024-09-26 20:07:20
License: 暂无描述

arXiv2024-09-26 更新2024-09-26 收录

下载链接：

https://huggingface.co/datasets/GTSinger/GTSinger

下载链接

链接失效反馈

官方服务：

资源简介：

GTSinger是由浙江大学创建的一个大型全球多技术歌唱语料库，旨在支持所有歌唱任务。该数据集包含80.59小时的优质歌唱语音，由20位专业歌手使用六种常见歌唱技术在九种广泛使用的语言中录制。数据集内容包括手动音素到音频对齐、全局风格标签和16.16小时的配对语音，以及现实音乐乐谱。创建过程涉及多步骤的录音、对齐、技术和风格注释以及后处理。GTSinger的应用领域广泛，旨在解决现有歌唱数据集在质量、多样性和任务适用性方面的不足，支持技术可控的歌唱语音合成、技术识别、风格转换和语音到歌唱转换等任务。

GTSinger is a large-scale global multi-technical singing corpus created by Zhejiang University, aiming to support all singing-related tasks. This dataset contains 80.59 hours of high-quality singing voices, recorded by 20 professional singers using six common singing techniques across nine widely used languages. The dataset includes manual phoneme-to-audio alignment, global style labels, 16.16 hours of paired speech, as well as realistic musical scores. Its creation involves multi-step recording, alignment, technical and style annotation, and post-processing. GTSinger has broad application scenarios, and is designed to address the shortcomings of existing singing datasets in terms of quality, diversity and task applicability, supporting tasks such as technique-controlled singing voice synthesis, technique recognition, style transfer and speech-to-singing conversion.

提供机构：

浙江大学

创建时间：

2024-09-21

搜集汇总

数据集介绍

构建方式

GTSinger数据集的构建过程体现了对高质量、多任务歌唱数据稀缺问题的深刻理解与创新解决方案。该数据集通过精心策划，收集了80.59小时的高质量歌唱音频，涵盖20位专业歌手，跨越九种广泛使用的语言。每个音频记录均在专业录音室中完成，确保了音频的清晰度和质量。此外，数据集还提供了六种常见歌唱技巧的音素级注释，以及真实乐谱，这些乐谱由音乐专家根据录音歌曲和原始伴奏进行调整，确保了乐谱的实际应用性。数据集还包括手动音素到音频的对齐、全局风格标签和16.16小时的配对语音，以支持多种歌唱任务的研究和开发。

特点

GTSinger数据集的显著特点在于其全球性、多技术和高质量的特性。首先，数据集涵盖了九种广泛使用的语言，确保了语言多样性和广泛的应用范围。其次，数据集提供了六种常见歌唱技巧的音素级注释，这有助于技巧建模和控制的研究。此外，数据集中的真实乐谱为实际音乐创作提供了支持，而手动音素到音频的对齐和全局风格标签则进一步增强了数据集的任务适用性。最后，数据集还包括16.16小时的配对语音，为语音到歌唱转换等任务提供了丰富的资源。

使用方法

GTSinger数据集适用于多种歌唱任务的研究和开发，包括技巧可控的歌唱语音合成、技巧识别、风格转换和语音到歌唱转换等。研究者可以通过访问数据集的官方网站（http://gtsinger.github.io）下载数据集，并根据CC BY-NC-SA 4.0许可协议进行非商业用途的使用。此外，数据集的处理代码和基准测试代码也已公开，用户可以通过GitHub（https://github.com/GTSinger/GTSinger）获取。为了更好地利用数据集，用户可以根据具体任务的需求，结合数据集提供的音素级注释、真实乐谱和全局风格标签，进行模型的训练和评估。

背景与挑战

背景概述

在歌唱任务的深度学习领域，高质量且多任务的歌唱数据集的稀缺性显著阻碍了多样化可控和个性化歌唱任务的发展。现有的歌唱数据集普遍存在质量低下、语言和歌手多样性有限、缺乏多技术信息和现实乐谱、以及任务适用性差等问题。为应对这些挑战，浙江大学的研究团队于2024年推出了GTSinger数据集，这是一个全球多技术的免费使用、高质量歌唱语料库，旨在支持所有歌唱任务。该数据集包含了80.59小时的优质歌唱语音，由20位专业歌手在九种广泛使用的语言中录制，提供了六种常用歌唱技术的控制比较和音素级注释，以及现实乐谱。GTSinger的推出不仅填补了现有数据集的空白，还为歌唱技术的建模和控制提供了新的基准。

当前挑战

GTSinger数据集在构建过程中面临多项挑战。首先，收集高质量的歌唱语音和多语言、多歌手的多样性是一项艰巨的任务。其次，提供六种歌唱技术的控制比较和音素级注释，以及现实乐谱，需要高度专业化的标注工作。此外，确保数据集对各种歌唱任务的适用性，包括技术可控的歌唱语音合成、技术识别、风格转换和语音到歌唱的转换，也是一大挑战。这些挑战不仅涉及数据收集和标注的高成本，还要求在技术和风格建模方面达到高精度，以支持多样化和个性化的歌唱体验。

常用场景

经典使用场景

GTSinger数据集的经典使用场景主要集中在多任务歌唱处理领域，包括技术可控的歌唱语音合成（SVS）、技术识别、风格转换以及语音到歌唱的转换（STS）。这些任务在实际应用中具有广泛的需求，如短视频制作和专业音乐创作。通过提供高质量的歌唱语音、多语言和多歌手的多样性、以及详细的音乐乐谱和语音对齐信息，GTSinger为这些任务的模型训练和评估提供了丰富的资源。

解决学术问题

GTSinger数据集解决了现有歌唱数据集在质量、多样性、技术信息和任务适用性方面的常见问题。它通过提供80.59小时的高质量歌唱语音、涵盖九种广泛使用的语言和20位专业歌手的多样性、以及六种常见歌唱技术的详细标注和控制比较，显著提升了歌唱任务模型的训练效果。此外，GTSinger还提供了真实的音乐乐谱和语音对齐信息，有助于模型在实际音乐创作中的应用。

衍生相关工作

GTSinger数据集的发布催生了一系列相关研究工作，包括基于扩散模型的歌唱语音合成系统（如DiffSinger和RMSSinger）、技术识别模型、风格转换模型（如StyleSinger）以及语音到歌唱转换模型（如AlignSTS）。这些工作不仅利用了GTSinger的高质量数据和详细标注，还推动了歌唱处理技术的发展，特别是在技术控制和风格建模方面取得了显著进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集