five

GTSinger

收藏
github2024-06-13 更新2024-06-14 收录
下载链接:
https://github.com/GTSinger/GTSinger
下载链接
链接失效反馈
官方服务:
资源简介:
GTSinger是一个全球多技术、免费使用的高质量歌唱语料库,包含真实的音乐乐谱,设计用于所有歌唱任务,并附带其基准测试。数据集组织为九个顶级文件夹,每个文件夹对应一种不同的语言,每个语言文件夹下有五个子文件夹,代表特定的歌唱技术。每个技术文件夹包含多个歌曲条目,每首歌曲进一步分为几个控制比较组:一个控制组(自然歌唱不使用特定技术)和一个技术组(密集使用特定技术)。歌唱声音和语音以48kHz采样率和24位分辨率录制在WAV格式中。对齐和注释在TextGrid文件中提供,包括单词边界、音素边界、音素级注释用于六种技术,以及全局风格标签(歌唱方法、情感、节奏和范围)。还提供真实的音乐乐谱在musicxml格式中。

GTSinger is a globally diverse, freely accessible, high-quality singing corpus that includes authentic musical scores, designed for all singing tasks and accompanied by its benchmark tests. The dataset is organized into nine top-level folders, each corresponding to a different language. Within each language folder, there are five subfolders representing specific singing techniques. Each technique folder contains multiple song entries, with each song further divided into several control comparison groups: a control group (natural singing without the use of specific techniques) and a technique group (intensive use of specific techniques). Singing voices and speech are recorded in WAV format at a 48kHz sampling rate and 24-bit resolution. Alignment and annotations are provided in TextGrid files, including word boundaries, phoneme boundaries, phoneme-level annotations for six techniques, and global style tags (singing method, emotion, rhythm, and range). Authentic musical scores are also provided in MusicXML format.
创建时间:
2024-06-12
原始信息汇总

数据集概述

名称: GTSinger

描述: GTSinger是一个全球性的、多技术的、免费使用的高质量歌唱语料库,包含真实的乐谱,设计用于所有歌唱任务。

数据集下载

数据结构

  • 组织方式: 数据集按层次结构组织,包含九个顶级文件夹,每个对应一种语言。
  • 子文件夹: 每个语言文件夹内包含五个子文件夹,分别代表特定的歌唱技巧。
  • 歌曲条目: 每个技巧文件夹内包含多个歌曲条目,每首歌曲进一步分为几个控制比较组:控制组(自然歌唱,不使用特定技巧)和技术组(密集使用特定技巧)。
  • 音频格式: 歌唱声音和语音以48kHz采样率和24位分辨率录制在WAV格式中。
  • 标注和乐谱: 提供TextGrid文件中的对齐和标注,包括单词边界、音素边界、六种技巧的音素级标注以及全局风格标签(歌唱方法、情感、节奏和范围)。同时提供musicxml格式的真实乐谱。
  • JSON文件: 每个歌唱声音提供一个额外的JSON文件,便于数据解析和处理。

数据预处理代码

  • 代码位置: ./Data-Process
  • 依赖环境: 使用conda创建名为gt_dataprocess的环境,并安装必要的依赖。
  • 数据检查代码: 包括文件和文件夹结构检查、样本率和有效带宽检查、时间统计、音高绘制和梅尔频谱图绘制。
  • 数据预处理代码: 包括生成最终JSON文件、添加全局风格标签、歌唱声音和语音的分割。

技术可控歌唱声音合成

  • 代码位置: ./Technique-Controllable SVS

技术识别

  • 代码位置: ./Tech-Recognition

风格转移

  • 代码位置: ./Style Transfer

语音到歌唱转换

  • 代码位置: ./STS Conversion
搜集汇总
数据集介绍
main_image_url
构建方式
GTSinger数据集的构建基于专业录音室中由熟练歌手录制的80.59小时的高质量歌唱声音,涵盖九种广泛使用的语言和四种声域。数据集通过精细的录音和处理,确保了声音的高清晰度和质量。此外,数据集还包含了六种歌唱技巧的音素级标注和全局风格标签,以及16.16小时的配对语音数据,这些都为歌唱模型的训练提供了丰富的资源。
使用方法
GTSinger数据集可以通过Hugging Face和Google Drive免费下载,用户需遵守相关许可条款。数据集的结构层次分明,每个语言文件夹下包含五种歌唱技巧的子文件夹,每个技巧文件夹中包含多个歌曲条目。用户可以使用提供的预处理代码对数据进行检查和预处理,以便于歌唱模型的训练和评估。此外,数据集还支持多种歌唱任务的基准测试,如技巧可控的歌唱语音合成、技巧识别、风格转换和语音到歌唱的转换。
背景与挑战
背景概述
GTSinger数据集由浙江大学的研究团队于2024年创建,是一个全球多技术歌唱语料库,旨在为所有歌唱任务提供高质量的歌唱数据。该数据集由20位专业歌手录制,涵盖九种广泛使用的语言和四种声域,总时长超过80小时。GTSinger不仅提供了高质量的歌唱音频,还包含了六种歌唱技巧的音素级标注和现实音乐乐谱,极大地推动了歌唱技术建模、识别和控制的研究。该数据集的发布对歌唱合成、风格转换和语音到歌唱转换等领域的研究具有重要影响。
当前挑战
GTSinger数据集在构建过程中面临多项挑战。首先,多语言和多声域的录音需要确保音质的一致性和清晰度,这对录音技术和设备提出了高要求。其次,音素级标注和歌唱技巧的精细控制需要大量的人工校对和专业知识,增加了数据处理的复杂性。此外,现实音乐乐谱的生成和与音频的对齐也是一个技术难题。未来,数据集还需进一步完善英语、法语、日语、韩语和意大利语的标注,并发布剩余的已处理数据,以满足更广泛的研究需求。
常用场景
经典使用场景
GTSinger数据集在歌唱任务中展现了其经典应用场景。该数据集通过提供高质量的歌唱音频和真实的音乐乐谱,支持多种歌唱技术的建模与识别。例如,研究者可以利用GTSinger进行歌唱声音合成(SVS)、歌唱技术识别以及风格转换等任务。其多语言和多技术的特性使得模型能够在不同语言和歌唱风格之间进行零样本学习,极大地扩展了模型的应用范围。
解决学术问题
GTSinger数据集解决了歌唱领域中多个重要的学术研究问题。首先,它通过提供多语言和多技术的歌唱数据,填补了现有数据集在语言多样性和技术覆盖面上的不足。其次,其真实的音乐乐谱和精细的音素级标注,有助于提升歌唱模型在实际音乐创作中的适应性和表现力。此外,GTSinger还促进了歌唱技术建模与控制的研究,为歌唱技术的自动识别和应用提供了新的可能性。
实际应用
GTSinger数据集在实际应用中展现了广泛的应用前景。在音乐产业中,它可以用于开发智能音乐创作工具,帮助音乐制作人快速生成符合特定风格和技术的歌唱音频。在教育领域,GTSinger可以用于开发歌唱教学软件,通过分析学生的歌唱表现,提供个性化的反馈和指导。此外,该数据集还可应用于语音合成技术的改进,特别是在需要高质量歌唱音频的场景中,如虚拟偶像和游戏配音。
数据集最近研究
最新研究方向
在歌唱技术与语音合成领域,GTSinger数据集的最新研究方向主要集中在多语言歌唱技术的建模与控制上。该数据集通过提供高质量的歌唱音频和详细的音乐乐谱,促进了零样本歌唱语音合成(SVS)和风格迁移模型的开发。研究者们利用GTSinger中的多语言和多技术特性,探索如何在不同语言和文化背景下实现歌唱技术的精确识别与控制。此外,数据集中的真实音乐乐谱和语音对齐信息,也为语音到歌唱转换(STS)和歌唱技术识别等前沿任务提供了丰富的实验数据,推动了这些领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作