GTSinger

github2024-06-13 更新2024-06-14 收录

下载链接：

https://github.com/GTSinger/GTSinger

下载链接

链接失效反馈

官方服务：

资源简介：

GTSinger是一个全球多技术、免费使用的高质量歌唱语料库，包含真实的音乐乐谱，设计用于所有歌唱任务，并附带其基准测试。数据集组织为九个顶级文件夹，每个文件夹对应一种不同的语言，每个语言文件夹下有五个子文件夹，代表特定的歌唱技术。每个技术文件夹包含多个歌曲条目，每首歌曲进一步分为几个控制比较组：一个控制组（自然歌唱不使用特定技术）和一个技术组（密集使用特定技术）。歌唱声音和语音以48kHz采样率和24位分辨率录制在WAV格式中。对齐和注释在TextGrid文件中提供，包括单词边界、音素边界、音素级注释用于六种技术，以及全局风格标签（歌唱方法、情感、节奏和范围）。还提供真实的音乐乐谱在musicxml格式中。

GTSinger is a globally diverse, freely accessible, high-quality singing corpus that includes authentic musical scores, designed for all singing tasks and accompanied by its benchmark tests. The dataset is organized into nine top-level folders, each corresponding to a different language. Within each language folder, there are five subfolders representing specific singing techniques. Each technique folder contains multiple song entries, with each song further divided into several control comparison groups: a control group (natural singing without the use of specific techniques) and a technique group (intensive use of specific techniques). Singing voices and speech are recorded in WAV format at a 48kHz sampling rate and 24-bit resolution. Alignment and annotations are provided in TextGrid files, including word boundaries, phoneme boundaries, phoneme-level annotations for six techniques, and global style tags (singing method, emotion, rhythm, and range). Authentic musical scores are also provided in MusicXML format.

创建时间：

2024-06-12

原始信息汇总

数据集概述

名称： GTSinger

描述： GTSinger是一个全球性的、多技术的、免费使用的高质量歌唱语料库，包含真实的乐谱，设计用于所有歌唱任务。

数据集下载

下载链接：

数据结构

组织方式： 数据集按层次结构组织，包含九个顶级文件夹，每个对应一种语言。
子文件夹： 每个语言文件夹内包含五个子文件夹，分别代表特定的歌唱技巧。
歌曲条目： 每个技巧文件夹内包含多个歌曲条目，每首歌曲进一步分为几个控制比较组：控制组（自然歌唱，不使用特定技巧）和技术组（密集使用特定技巧）。
音频格式： 歌唱声音和语音以48kHz采样率和24位分辨率录制在WAV格式中。
标注和乐谱： 提供TextGrid文件中的对齐和标注，包括单词边界、音素边界、六种技巧的音素级标注以及全局风格标签（歌唱方法、情感、节奏和范围）。同时提供musicxml格式的真实乐谱。
JSON文件： 每个歌唱声音提供一个额外的JSON文件，便于数据解析和处理。

数据预处理代码

代码位置： ./Data-Process
依赖环境： 使用conda创建名为gt_dataprocess的环境，并安装必要的依赖。
数据检查代码： 包括文件和文件夹结构检查、样本率和有效带宽检查、时间统计、音高绘制和梅尔频谱图绘制。
数据预处理代码： 包括生成最终JSON文件、添加全局风格标签、歌唱声音和语音的分割。

技术可控歌唱声音合成

代码位置： ./Technique-Controllable SVS

技术识别

代码位置： ./Tech-Recognition

风格转移

代码位置： ./Style Transfer

语音到歌唱转换

代码位置： ./STS Conversion

搜集汇总

数据集介绍

构建方式

GTSinger数据集的构建基于专业录音室中由熟练歌手录制的80.59小时的高质量歌唱声音，涵盖九种广泛使用的语言和四种声域。数据集通过精细的录音和处理，确保了声音的高清晰度和质量。此外，数据集还包含了六种歌唱技巧的音素级标注和全局风格标签，以及16.16小时的配对语音数据，这些都为歌唱模型的训练提供了丰富的资源。

使用方法

GTSinger数据集可以通过Hugging Face和Google Drive免费下载，用户需遵守相关许可条款。数据集的结构层次分明，每个语言文件夹下包含五种歌唱技巧的子文件夹，每个技巧文件夹中包含多个歌曲条目。用户可以使用提供的预处理代码对数据进行检查和预处理，以便于歌唱模型的训练和评估。此外，数据集还支持多种歌唱任务的基准测试，如技巧可控的歌唱语音合成、技巧识别、风格转换和语音到歌唱的转换。

背景与挑战

背景概述

GTSinger数据集由浙江大学的研究团队于2024年创建，是一个全球多技术歌唱语料库，旨在为所有歌唱任务提供高质量的歌唱数据。该数据集由20位专业歌手录制，涵盖九种广泛使用的语言和四种声域，总时长超过80小时。GTSinger不仅提供了高质量的歌唱音频，还包含了六种歌唱技巧的音素级标注和现实音乐乐谱，极大地推动了歌唱技术建模、识别和控制的研究。该数据集的发布对歌唱合成、风格转换和语音到歌唱转换等领域的研究具有重要影响。

当前挑战

GTSinger数据集在构建过程中面临多项挑战。首先，多语言和多声域的录音需要确保音质的一致性和清晰度，这对录音技术和设备提出了高要求。其次，音素级标注和歌唱技巧的精细控制需要大量的人工校对和专业知识，增加了数据处理的复杂性。此外，现实音乐乐谱的生成和与音频的对齐也是一个技术难题。未来，数据集还需进一步完善英语、法语、日语、韩语和意大利语的标注，并发布剩余的已处理数据，以满足更广泛的研究需求。

常用场景

经典使用场景

GTSinger数据集在歌唱任务中展现了其经典应用场景。该数据集通过提供高质量的歌唱音频和真实的音乐乐谱，支持多种歌唱技术的建模与识别。例如，研究者可以利用GTSinger进行歌唱声音合成（SVS）、歌唱技术识别以及风格转换等任务。其多语言和多技术的特性使得模型能够在不同语言和歌唱风格之间进行零样本学习，极大地扩展了模型的应用范围。

解决学术问题

GTSinger数据集解决了歌唱领域中多个重要的学术研究问题。首先，它通过提供多语言和多技术的歌唱数据，填补了现有数据集在语言多样性和技术覆盖面上的不足。其次，其真实的音乐乐谱和精细的音素级标注，有助于提升歌唱模型在实际音乐创作中的适应性和表现力。此外，GTSinger还促进了歌唱技术建模与控制的研究，为歌唱技术的自动识别和应用提供了新的可能性。

实际应用

GTSinger数据集在实际应用中展现了广泛的应用前景。在音乐产业中，它可以用于开发智能音乐创作工具，帮助音乐制作人快速生成符合特定风格和技术的歌唱音频。在教育领域，GTSinger可以用于开发歌唱教学软件，通过分析学生的歌唱表现，提供个性化的反馈和指导。此外，该数据集还可应用于语音合成技术的改进，特别是在需要高质量歌唱音频的场景中，如虚拟偶像和游戏配音。

数据集最近研究