JAME

Name: JAME
Creator: 新加坡科技与设计大学, Lambda Labs
Published: 2025-07-28 22:34:02
License: 暂无描述

arXiv2025-07-28 更新2025-07-30 收录

下载链接：

https://declare-lab.github.io/jamify, https://huggingface.co/declare-lab/JAM-0.5, https://github.com/declare-lab/jamify

下载链接

链接失效反馈

官方服务：

资源简介：

JAME数据集是JAM模型评估中使用的公共评估数据集，包含250首歌曲的歌词，这些歌曲是在模型训练截止日期之后发布的，以确保JAM模型在训练过程中无法访问这些歌曲。数据集的创建旨在解决当前音乐生成模型缺乏细粒度词级控制、歌词保真度低、缺乏持续时间控制等问题。

The JAME dataset is a public evaluation dataset used for assessing the JAM model. It contains lyrics from 250 songs released after the model's training cutoff date, ensuring that the JAM model had no access to these songs during its training phase. This dataset was developed to address core limitations of current music generation models, including the lack of fine-grained word-level control, low lyric fidelity, and insufficient duration control.

提供机构：

新加坡科技与设计大学, Lambda Labs

创建时间：

2025-07-28

搜集汇总

数据集介绍

构建方式

JAME数据集的构建过程体现了严谨的学术态度与创新性设计理念。研究团队从避免数据污染的核心原则出发，专门采集2025年5月后发布的当代音乐作品，通过Spotify的New Music Friday歌单系统获取元数据，并采用分层抽样策略构建覆盖乡村/民谣、电子/舞曲等五大流派的平衡数据集。在数据处理环节，创新性地引入HDemucs工具进行人声与伴奏分离，结合Parakeet语音识别系统提取歌词文本与时序信息，最终形成包含250首专业音乐作品的标准化评估集。该数据集特别设计了基于Qwen2.5-Omni的流派分类体系，并公开全部标注协议与评估指标，为歌词到歌曲生成领域建立了首个可复现的基准测试框架。

特点

JAME数据集的核心价值体现在其多维度的评估体系设计。区别于传统音乐数据集，它不仅提供原始音频与歌词对齐信息，更创新性地整合了音乐智能（MuQ-MuLan相似度）、风格一致性（流派分类准确率）和审美评价（SongEval五维度指标）等复合评估维度。数据集特别强化了时序标注粒度，同时包含连续时间戳和节拍量化两种标注形式，支持从音素级对齐到整体歌曲结构的全尺度评估。值得注意的是，所有样本均附带专业制作的参考音频，并经过音乐专家的质量校验，确保评估结果的权威性。这种将客观信号特征与主观音乐认知相结合的特色，使其成为评估生成式音乐模型美学表现力的理想基准。

使用方法

使用JAME数据集需遵循其模块化评估协议。研究者首先需在标准化的测试划分上运行生成模型，随后通过三级评估流程：基础层采用Parakeet和DeepPhonemizer计算WER/PER指标评估歌词保真度；中间层运用CLAP-Laion模型计算Fréchet音频距离衡量分布对齐程度；高级评估则依赖SongEval工具包进行音乐性、自然度等审美维度分析。对于对比实验，建议采用数据集预设的五流派分组进行跨风格鲁棒性测试。需要特别注意的是，当模型涉及时长预测功能时，可利用数据集提供的节拍量化标注验证节奏对齐性能。所有评估应严格区分开发集与测试集，并报告在官方划分上的结果以确保可比性。

背景与挑战

背景概述

JAME数据集由新加坡科技设计大学（SUTD）和Lambda Labs的研究团队于2025年推出，旨在解决歌词到歌曲生成领域的关键问题。该数据集作为JAM模型的配套评估基准，聚焦于音乐生成中细粒度时序控制与美学对齐的挑战。研究团队通过收集250首涵盖多种流派的新发行歌曲，构建了首个公开的、可避免数据污染的歌词到歌曲生成评估标准，填补了该领域缺乏标准化评估框架的空白。

当前挑战

JAME数据集面临双重挑战：在领域问题上，需解决现有模型存在的歌词-音频对齐粗糙、音素错误率高、全局时长控制缺失等核心缺陷；在构建过程中，需克服音乐数据版权合规性、跨流派评估标准统一性，以及人工标注与自动化评估间的平衡难题。特别值得注意的是，细粒度时序标注的获取成本与生成模型对不完美标注的鲁棒性之间的矛盾，构成了该数据集最具突破性的技术挑战。

常用场景

经典使用场景

在音乐创作与人工智能交叉领域，JAME数据集为歌词到歌曲的生成任务提供了标准化评估框架。该数据集通过收集后训练周期发布的新曲目，有效避免了数据污染问题，并依据音乐风格划分为五大流派组别，为研究者提供了细粒度的跨流派性能分析能力。其典型应用场景包括评估生成歌曲的歌唱清晰度（通过WER和PER指标）、风格一致性（基于MuQ-MuLan相似度）以及音乐美学质量（采用SongEval多维评分体系），尤其在衡量AI模型对歌词-旋律对齐精度和整体音乐性方面具有不可替代的价值。

衍生相关工作

围绕JAME数据集已衍生出多个标志性研究：LeVo团队将其扩展为包含人声呼吸间隔标注的JAME-Breath版本；ACEStep基于该数据集开发了融合音乐理论规则的强化学习奖励模型；DiffRhythm+采用数据集的流派划分策略实现了风格条件增强的扩散模型。值得关注的是，TangoFlux项目利用JAME的时序标注特性，首次实现了歌词-伴奏跨模态注意力机制的定量分析，推动了可控音乐生成理论的发展。

数据集最近研究