SongFormDB
收藏arXiv2025-10-03 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/ASLP-lab/SongFormDB
下载链接
链接失效反馈官方服务:
资源简介:
SongFormDB是目前最大的音乐结构分析(MSA)语料库,包含超过10,000首歌曲,跨越多种语言和流派。该数据集是为了支持SongFormer框架的扩展和公平评估而发布的。SongFormDB旨在解决当前音乐结构分析方法的局限性,例如数据集规模小、标注不一致等问题。
SongFormDB is the largest currently available corpus for music structure analysis (MSA), comprising over 10,000 songs spanning diverse languages and musical genres. This dataset was released to support the extension and fair evaluation of the SongFormer framework. SongFormDB aims to address the core limitations of current music structure analysis methods, including issues such as the small scale of existing datasets and inconsistent annotations.
提供机构:
西北工业大学
创建时间:
2025-10-03
搜集汇总
数据集介绍

构建方式
在音乐结构分析领域,SongFormDB的构建采用了多源异构数据融合策略。该数据集整合了HarmonixSet、私有歌词对齐数据、部分片段标注数据以及Gemini 2.5 Pro生成的标注,通过统一标签映射规则将原始标注转换为包含前奏、主歌、副歌等七类功能段落的标准化格式。针对数据质量问题,开发团队运用音频活动检测、歌唱导向强制对齐等技术进行时间戳校正,并采用基于规则的标注修正方法确保时序精度。最终形成的10,000余首跨语言流派曲目库,通过专家验证的300首基准测试集SongFormBench实现了质量把控。
特点
作为当前规模最大的音乐结构分析数据集,SongFormDB展现出显著的多样性与复杂性特征。其覆盖流行、摇滚等多种音乐流派及中英文等多语言内容,标注体系同时包含精确到0.5秒的边界时间戳和功能段落语义标签。数据集的独特价值体现在融合了人工精标注、机器生成标注、部分片段标注等不同质量层次的监督信号,这种异构特性为模型适应真实场景中的标注噪声提供了训练基础。特别设计的SongFormBench基准集通过多源交叉验证机制,建立了权威的评估标准。
使用方法
该数据集主要服务于音乐结构分析模型的训练与评估,使用时需遵循特定的数据处理流程。输入音频首先被截断至420秒以内,通过预训练的MuQ和MusicFM模型提取30秒与420秒双尺度自监督特征,经融合降采样后输入Transformer架构。训练阶段引入数据源嵌入向量以区分不同质量的标注来源,采用边界检测与功能分类的多任务损失函数。评估时需使用SongFormBench的严格指标体系,包括0.5秒容错的边界检测精度HR.5F、3秒容错的HR3F以及帧级功能分类准确率,确保模型性能的可比性与可复现性。
背景与挑战
背景概述
音乐结构分析作为音乐信息检索的核心任务,旨在解析歌曲的功能性段落结构及其边界时序。SongFormDB由西北工业大学音频、语音与语言处理课题组联合香港科技大学等机构于2025年发布,作为当前规模最大的音乐结构分析数据集,涵盖超过一万首跨语言与流派的音轨。该数据集通过融合多源异构标注数据,突破了传统数据集规模受限的瓶颈,为基于深度学习的音乐结构建模提供了关键数据支撑,显著推动了可控音乐生成与智能音乐理解领域的发展。
当前挑战
在音乐结构分析领域,模型需应对功能性段落分类与毫秒级边界检测的双重挑战,现有方法常因时序分辨率不足导致结构模糊。SongFormDB构建过程中面临标注异构性难题:多源数据的标签体系存在语义冲突,部分标注仅覆盖歌曲片段,且Gemini大模型生成的粗粒度标注存在时序对齐偏差。此外,自监督音频表征与长序列建模的融合要求平衡局部细节与全局依赖,而标注质量参差迫使模型需通过源嵌入机制自适应学习噪声分布。
常用场景
解决学术问题
SongFormDB有效解决了音乐结构分析领域长期面临的数据稀缺与标注不一致问题。传统方法受限于小规模数据集导致的泛化能力不足,而该数据集通过整合异构监督信号,支持模型在部分标注、噪声标签和模式不匹配场景下的稳健学习。其引入的源嵌入机制使模型能够区分不同数据源的标注特性,显著提升了跨数据集泛化性能。这一突破为音乐理解任务提供了可靠的数据基础,推动了自监督表示学习在音乐结构分析中的应用边界扩展。
衍生相关工作
围绕SongFormDB衍生的经典研究呈现出多层次的技术演进。SongFormer框架通过融合多分辨率自监督表示与异构监督策略,在严格边界检测指标上刷新了最优性能。后续研究在此基础上发展了时序自适应预训练模型、基于图注意力网络的结构分析方法等创新方向。这些工作共同构建起从特征提取到结构解析的完整技术栈,其中LinkSeg-7Labels在段落链接预测、All-In-One在端到端结构分析等方面的突破,均受益于该数据集提供的规模化训练样本与标准化评估基准。
以上内容由遇见数据集搜集并总结生成



