GTSinger

Name: GTSinger
Creator: 浙江大学
Published: 2024-10-30 12:37:33
License: 暂无描述

arXiv2024-10-30 更新2024-11-01 收录

下载链接：

http://gtsinger.github.io, https://huggingface.co/datasets/GTSinger/GTSinger, https://github.com/GTSinger/GTSinger

下载链接

链接失效反馈

官方服务：

资源简介：

GTSinger是由浙江大学创建的一个大型全球多技术歌唱语料库，旨在支持所有歌唱任务。该数据集包含80.59小时的优质歌唱语音，由20位专业歌手使用六种常见歌唱技术录制，涵盖九种广泛使用的语言。数据集的创建过程包括录音、对齐、技术与风格注释以及真实音乐乐谱的编写。GTSinger不仅提供了高质量的歌唱语音，还包含了详细的语音对齐、全局风格标签和16.16小时的配对语音，适用于多种歌唱任务，如技术可控的歌唱语音合成、技术识别、风格转换和语音到歌唱的转换。

GTSinger is a large-scale global multi-technical singing corpus developed by Zhejiang University, aiming to support all singing-related tasks. This corpus contains 80.59 hours of high-quality singing voices, recorded by 20 professional singers using six common singing techniques, and covers nine widely used languages. The construction process of the dataset includes recording, alignment, technical and style annotation, as well as the compilation of authentic musical scores. In addition to providing high-quality singing voices, GTSinger also includes detailed voice alignment, global style tags, and 16.16 hours of paired voice data, which is applicable to various singing tasks such as technique-controlled singing voice synthesis, technique recognition, style transfer, and voice-to-singing conversion.

提供机构：

浙江大学

创建时间：

2024-09-21

搜集汇总

数据集介绍

构建方式

GTSinger数据集的构建过程体现了对高质量、多任务歌唱数据集需求的深刻理解。首先，收集了80.59小时的优质歌唱音频，由20位专业歌手在九种广泛使用的语言中录制，确保了音质的纯净与多样性。其次，数据集包含了六种常见歌唱技巧的音素级标注，这些技巧包括混合声、假声、气声、咽音、颤音和滑音，为技巧建模和控制提供了详尽的对比数据。此外，每首歌曲均附有现实音乐乐谱，这些乐谱经过精心编排，以适应实际的音乐创作需求。最后，数据集还包括了手动音素到音频的对齐、全局风格标签以及16.16小时的配对语音数据，以支持多种歌唱任务的研究。

使用方法

GTSinger数据集的使用方法多样且灵活，适用于多种歌唱任务的研究与应用。首先，研究者可以利用数据集中的音素级技巧标注进行歌唱技巧的建模与控制研究。其次，数据集中的现实音乐乐谱可以用于歌唱声音合成、风格转换等任务的训练与评估。此外，配对的语音数据为语音到歌唱转换任务提供了宝贵的资源。数据集的代码和处理工具可在GitHub上获取，用户可以根据需要进行定制和扩展。为了确保数据集的正确使用，建议用户遵循CC BY-NC-SA 4.0许可协议，并在使用过程中参考提供的使用指南和示例代码。

背景与挑战

背景概述

GTSinger，一个由浙江大学主导开发的大型全球多技术歌唱语料库，于2024年正式发布。该数据集由Yu Zhang、Changhao Pan等20位专业歌手参与录制，涵盖了九种广泛使用的语言，并提供了六种常见歌唱技术的详细标注。GTSinger的核心研究问题在于解决现有歌唱数据集在质量、语言多样性、技术信息缺失以及任务适用性方面的不足。该数据集的推出极大地推动了歌唱任务的发展，特别是在技术可控的歌唱声音合成、技术识别、风格转换和语音到歌唱转换等领域，为学术界和工业界提供了宝贵的资源。

当前挑战

GTSinger在构建过程中面临多项挑战。首先，高质量歌唱声音的录制和多语言、多歌手的多样性要求极高的成本和技术支持。其次，对六种歌唱技术的精细标注和真实乐谱的提供，增加了数据集构建的复杂性和工作量。此外，数据集在任务适用性方面也存在挑战，新兴歌唱任务需要定制新的数据集，这进一步增加了成本和难度。尽管GTSinger在多个方面取得了显著进展，但其广泛应用仍需克服技术识别模型的泛化能力、歌唱风格转换的跨语言性能以及语音到歌唱转换任务中的音高建模精度等技术难题。

常用场景

经典使用场景

GTSinger数据集的经典使用场景主要集中在歌唱任务的多样化建模与控制上。该数据集通过提供80.59小时的高质量歌唱语音，涵盖九种广泛使用的语言和六种常见的歌唱技巧，为技术可控的歌唱语音合成、技巧识别、风格转换以及语音到歌唱的转换等任务提供了丰富的资源。这些任务在娱乐产业和专业音乐创作中具有广泛的应用前景，如短视频配音和个性化音乐制作。

解决学术问题

GTSinger数据集解决了现有歌唱数据集在质量、多样性和任务适用性方面的常见问题。它通过提供多语言、多歌手、多技巧的歌唱语音，以及真实的音乐乐谱和详细的语音对齐信息，显著提升了歌唱任务模型的训练效果。该数据集的推出为学术界提供了研究歌唱语音合成、风格迁移和语音到歌唱转换等前沿课题的宝贵资源，推动了相关领域的发展。

实际应用

GTSinger数据集在实际应用中展现出巨大的潜力，特别是在娱乐和音乐创作领域。例如，它可以用于自动生成高质量的歌唱语音，为短视频平台提供个性化的配音服务；在专业音乐创作中，它可以帮助作曲家快速生成符合特定风格和技巧要求的歌唱片段。此外，该数据集还可用于开发智能音乐教育工具，帮助学习者掌握不同的歌唱技巧。

数据集最近研究