MUSDB-ALT
收藏arXiv2025-06-18 更新2025-06-22 收录
下载链接:
https://huggingface.co/datasets/jazasyed/musdb-alt
下载链接
链接失效反馈官方服务:
资源简介:
MUSDB-ALT数据集是根据Jam-ALT指南创建的第一个长期歌词转录数据集,其中包含公开可用的声乐茎。数据集包含39首英文歌曲的长期歌词转录,这些转录是根据MUSDB歌词扩展手动创建的。MUSDB-ALT数据集旨在解决自动歌词转录(ALT)中音乐伴奏干扰的问题,通过提供分离的声乐茎作为预处理步骤,从而减少干扰。该数据集遵循Jam-ALT指南,确保非词汇发音和背景和声的标注一致性。数据集的创建旨在为ALT系统提供更准确的转录结果,并促进ALT领域的研究。
The MUSDB-ALT dataset is the first long-form lyric transcription dataset developed in line with the Jam-ALT guidelines, which includes publicly available vocal stems. It contains long-form lyric transcriptions for 39 English songs, manually created based on the MUSDB Lyric Extension. The MUSDB-ALT dataset aims to resolve the problem of musical accompaniment interference in automatic lyric transcription (ALT), reducing such interference by providing separated vocal stems as a preprocessing step. This dataset follows the Jam-ALT guidelines to guarantee annotation consistency for non-lexical utterances and background harmonies. The dataset is constructed to deliver more accurate transcription results for ALT systems and advance research in the ALT field.
提供机构:
伦敦玛丽女王大学电子工程与计算机科学学院
创建时间:
2025-06-18
原始信息汇总
数据集概述:MUSDB-ALT
基本描述
- 任务类别: 自动语音识别
- 语言: 英语 (en)
- 标签: 音乐、歌词、评估、基准、转录
- 名称: MUSDB-ALT
- 许可证: CC-BY-NC-SA 4.0
数据集详情
- 内容: 包含基于MUSDB18测试集的长格式歌词转录,遵循Jam-ALT指南,具有行级时间标记。
- 构建方式: 手动构建,以MUSDB18歌词扩展为起点。
- 覆盖范围: 从MUSDB18测试集的45首英语歌曲中标注了39首,排除了6首因特定原因无法标注的歌曲。
排除的歌曲及原因
- Signe Jakobsen - What Have You Done To Me: 三条重叠的人声线无法分离。
- PR - Happy Daze: 主要来自高度处理的人声样本。
- PR - Oh No: 主要来自高度处理的人声样本。
- Skelpolu - Resurrection: 主要来自高度处理的人声样本。
- Timboz - Pony: 歌词因尖叫式发音而难以理解。
- Triviul feat The Fiend - Widows: 三条重叠的人声线无法分离。
相关研究
- 论文: "Exploiting Music Source Separation for Automatic Lyrics Transcription with Whisper",发表于ICME 2025的“Artificial Intelligence For Music”研讨会。
- 资助: InnovateUK [Grant Number 10102804]
引用信息
bibtex @inproceedings{syed-2025-mss-alt, author = {Jaza Syed and Ivan Meresman-Higgs and Ond{v{r}}ej C{{i}}fka and Mark Sandler}, title = {Exploiting Music Source Separation for Automatic Lyrics Transcription with {Whisper}}, booktitle = {2025 {IEEE} International Conference on Multimedia and Expo Workshops (ICMEW)}, publisher = {IEEE}, year = {2025}, note = {In press} }
搜集汇总
数据集介绍

构建方式
MUSDB-ALT数据集的构建基于MUSDB18测试集中的39首英文歌曲,通过遵循Jam-ALT的标注指南,确保了歌词转录的一致性和准确性。研究团队对MUSDB歌词扩展进行了手动修订,统一了非词汇性发声(如‘ooh’、‘ah’)的标注方式,并将背景人声用括号明确标识。此外,歌词的断行和分段均依据音乐结构进行优化,以反映歌曲的韵律和节奏。数据集的构建还包括对歌词行级时间戳的精确标注,为长转录任务提供了可靠的时间对齐信息。
特点
MUSDB-ALT是首个公开提供长转录歌词且包含人声干声(vocal stems)的数据集,其标注严格遵循行业标准,尤其注重非词汇性发声和背景人声的一致性处理。数据集覆盖了多样化的音乐风格,总时长达166分钟,其中非词汇性发声和背景人声分别占总词汇量的3.27%和4.90%。通过结合MUSDB18-HQ的高质量音频,该数据集为研究音乐源分离与歌词转录的交互作用提供了理想基准。
使用方法
MUSDB-ALT支持短转录和长转录两种任务模式。在短转录任务中,用户可通过合并歌词行或分组生成非重叠的音频样本,以优化转录效果;长转录则推荐使用基于源分离的RMS-VAD算法确定分段边界,显著降低词错误率(WER)。数据集可直接用于评估Whisper等语音识别模型在歌词转录中的性能,尤其适合探究源分离质量对转录准确性的影响。使用时需注意音频预处理(如分离模型选择)与标注规范(如非词汇性发声的统计)的匹配。
背景与挑战
背景概述
MUSDB-ALT数据集由伦敦玛丽女王大学电子工程与计算机科学学院的Jaza Syed等研究人员于2025年创建,旨在解决音乐信息检索领域中歌词自动转录(ALT)的核心问题。该数据集基于MUSDB18-HQ的高质量音频,首次提供了符合Jam-ALT标注指南的长格式歌词文本及公开可用的干声轨,填补了该领域长期缺乏标准化评估数据的空白。作为首个融合音乐源分离技术与Whisper语音识别模型的研究载体,MUSDB-ALT通过系统化评估分离人声对转录准确率的影响,推动了音乐信号处理与自然语言处理的交叉研究。
当前挑战
该数据集面临双重挑战:在领域问题层面,音乐伴奏的高振幅干扰导致传统语音识别模型在歌词转录时词错误率(WER)显著上升,非词汇性发声(如哼唱)和和声轨的识别准确率不足50%;在构建过程中,需克服长格式音频分段策略的优化难题,包括Whisper模型对30秒以上音频的时序预测偏差,以及音乐源分离算法产生的伪影可能引发转录模型幻觉现象。此外,多语种歌词的标点规范化与分词处理、干声轨与分离人声的质量差异量化等工程挑战,均需通过创新算法设计来解决。
常用场景
经典使用场景
MUSDB-ALT数据集在音乐信息检索领域中被广泛应用于歌词自动转录(ALT)任务。该数据集通过提供长格式的歌词转录和对应的声乐干声,为研究者在复杂音乐伴奏环境下进行歌词识别提供了重要资源。其独特之处在于严格遵循Jam-ALT标注规范,确保了非词汇性发声和伴唱声部的标准化标注,使得该数据集成为评估源分离技术对ALT性能影响的基准工具。
实际应用
在实际应用中,MUSDB-ALT为音乐流媒体平台的歌词同步功能提供了技术支撑。基于该数据集开发的RMS-VAD分段算法已被证明能有效提升长音频的转录质量,这种技术可应用于现场音乐会录音的实时歌词生成。此外,数据集标注的精确时间戳为音乐教育领域的歌词跟读系统开发提供了关键的时间对齐参考。
衍生相关工作
该数据集催生了多项创新研究,包括基于源分离的声乐活动检测算法改进和Whisper模型的长格式转录优化。其中LyricWhiz系统通过结合Whisper与大型语言模型,在MUSDB-ALT上实现了当前最优性能。数据集还启发了对非词汇性发声识别的新评估指标,推动了音乐语音识别领域向更符合人耳感知的标注标准发展。
以上内容由遇见数据集搜集并总结生成



