five

STARS

收藏
arXiv2025-07-09 更新2025-07-11 收录
下载链接:
https://gwx314.github.io/stars-demo/
下载链接
链接失效反馈
官方服务:
资源简介:
STARS是一个用于歌唱转录、对齐和细化风格注释的统一框架,旨在解决歌唱语音合成(SVS)中对高质量标注数据集的需求。该框架提供多级标注,包括精确的音素-音频对齐、鲁棒的音符转录和时序定位、表现力的声乐技巧识别以及包括情感和节奏在内的全局风格特征。STARS通过分层声学特征处理,实现了帧、词、音素、音符和句子级别的多层次标注。该框架不仅克服了创建歌唱数据集的关键可扩展性挑战,还为可控的歌唱语音合成开辟了新的方法。

STARS is a unified framework for singing transcription, alignment, and refined style annotation, aiming to address the demand for high-quality annotated datasets in singing voice synthesis (SVS). This framework provides multi-level annotations, including accurate phoneme-audio alignment, robust note transcription and temporal localization, expressive vocal technique recognition, and global style features such as emotion and rhythm. STARS achieves multi-level annotations at frame, word, phoneme, note, and sentence levels through hierarchical acoustic feature processing. This framework not only overcomes the critical scalability challenges in constructing singing datasets, but also opens up new approaches for controllable singing voice synthesis.
提供机构:
浙江大学
创建时间:
2025-07-09
原始信息汇总

STARS数据集概述

框架简介

  • STARS是一个统一框架,同时解决歌唱转录、对齐和精细风格标注问题
  • 提供多层次注释:
    • 精确的音素-音频对齐
    • 稳健的音符转录和时间定位
    • 富有表现力的声乐技巧识别
    • 全局风格特征(包括情感和节奏)

自动歌唱标注(ASA)示例

示例1

  • 歌词:也 许 下 个 冬 天 <AP> 也 许 还 十 年
  • 音素:ie x v x ia g e d ong t ian <AP> ie x v h ai sh i n ian

示例2

  • 歌词:一 次 就 好 <AP> 我 带 你 去 看 天 荒 地 老
  • 音素:i c i j iou h ao <AP> uo d ai n i q v k an t ian h uang d i l ao

示例3

  • 歌词:my heads under water but <AP> im breathing fine <AP>
  • 音素:MAY1 HH EH1 D Z AH1 N D ER0 W AA1 T ER0 B AH1 T <AP> AY1 M B R IY1 DH IH0 NG IH1 N F AY1 N <AP>

歌唱语音合成(SVS)应用

全局风格控制

  • 音域:low, medium, high
  • 节奏:slow, moderate, fast
  • 情感:happy, sad

音素级技巧控制

  • 可用技巧:mixed, falsetto, breathy, pharyngeal, vibrato, glissando, weak, strong, bubble

合成示例1

  • 歌词:<SP> 不 再 看 天 上 太 阳 透 过 云 彩 的 光
  • 全局风格:high, moderate, sad
  • 音素技巧:详细标注每个音素的技巧编号(0-9)

合成示例2

  • 歌词:在 阳 光 灿 烂 的 日 子 里 开 怀 大 笑
  • 全局风格:medium, fast, happy
  • 音素技巧:详细标注每个音素的技巧编号(0-9)

合成示例3

  • 歌词:<SP> 远 处 蔚 蓝 天 空 下 涌 动 着 <AP> 金 色 的 麦 浪
  • 全局风格:low, slow, happy
  • 音素技巧:详细标注每个音素的技巧编号(0-9)
搜集汇总
数据集介绍
main_image_url
构建方式
STARS数据集通过统一的多层次框架构建,整合了歌唱转录、对齐和风格标注任务。该框架采用分层声学特征处理,涵盖帧、词、音素、音符和句子五个层次,利用非自回归局部声学编码器实现结构化分层表示学习。数据采集过程包括专业歌手的录音,并通过自动和手动结合的方式对音素边界、音符参数和风格属性进行标注,确保了数据的高质量和多维度覆盖。
特点
STARS数据集的特点在于其多层次、多维度的标注体系。它不仅提供了精确的音素-音频对齐和音符转录,还标注了丰富的歌唱技巧(如颤音、假声等)和全局风格属性(如情感、节奏等)。数据集覆盖中英双语,并通过噪声注入和数据增强提升了模型的鲁棒性。其标注的全面性和精确性为歌唱声音合成(SVS)系统提供了高质量的训练数据。
使用方法
STARS数据集适用于歌唱声音合成、自动歌唱标注等任务。使用时,用户可通过框架提供的多层次特征进行模型训练,包括音素对齐、音符预测、技巧识别和风格控制。数据集支持端到端的联合优化,避免了传统分步标注中的误差累积问题。具体应用中,用户可结合CMU编码器和FreqMOE模块提取声学特征,并通过动态规划算法实现音素与音频的精确对齐。
背景与挑战
背景概述
STARS数据集由浙江大学的研究团队于2025年提出,旨在解决歌唱语音合成(SVS)领域中高质量标注数据稀缺的核心问题。作为首个统一处理歌唱转录、对齐和精细化风格标注的框架,STARS通过分层声学特征处理架构,实现了音素-音频对齐、音符转录与定位、演唱技巧识别及全局风格特征标注等多层次标注功能。该数据集突破了传统分步式标注流程的局限性,显著提升了歌唱语音合成的自然度与风格控制精度,为可控歌唱合成系统的发展奠定了新的方法论基础。
当前挑战
STARS数据集面临的挑战主要体现在两个维度:在领域问题层面,需解决歌唱语音中音素时长变异大、音符边界模糊、演唱技巧多样性和风格连续性建模等复杂声学特性;在构建过程中,需克服多粒度特征联合建模、跨层级错误传播抑制、以及中英文双语歌唱数据的标注一致性等工程技术难题。传统分步式标注工具链存在的误差累积问题,以及歌唱数据相较于语音数据更严重的标注资源稀缺现状,进一步增加了构建统一标注框架的复杂度。
常用场景
经典使用场景
STARS数据集在歌唱语音合成(SVS)领域具有广泛的应用价值,其经典使用场景包括为歌唱语音合成模型提供高质量的标注数据。通过统一的框架,STARS能够同时完成歌唱转录、对齐和精细化风格标注,为研究者提供了多层次的歌唱语音特征,包括音素-音频对齐、音符转录与时间定位、声乐技巧识别以及全局风格特征。这些标注数据显著提升了歌唱语音合成模型的自然度和风格控制能力。
实际应用
STARS数据集在实际应用中表现出色,特别是在歌唱语音合成系统的训练和优化中。通过使用STARS标注的数据,歌唱语音合成模型能够生成更具自然感和表现力的歌唱语音。此外,STARS的标注结果还可用于歌唱教学、音乐信息检索和虚拟歌手开发等领域,为相关产业提供了高效的技术支持。
衍生相关工作
STARS数据集的推出催生了一系列相关研究工作,特别是在可控歌唱语音合成领域。基于STARS标注数据,研究者开发了多种先进的歌唱语音合成模型,如TechSinger和Prompt-Singer,这些模型在自然度和风格控制方面取得了显著进展。此外,STARS的多层次标注框架也为其他语音处理任务,如语音转换和音乐生成,提供了新的研究思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作