Muse Synthetic Song Dataset

Name: Muse Synthetic Song Dataset
Creator: 复旦大学·自然语言处理组
Published: 2026-01-07T22:40:48+08:00

arXiv2026-01-07 更新2026-01-09 收录

音乐生成

自然语言处理

数据链接：

https://github.com/yuhui1038/Muse 数据链接链接失效反馈

官方服务：

资源简介：

Muse合成歌曲数据集由复旦大学自然语言处理组构建，包含11.6万首全授权合成歌曲，总时长约7,771小时。该数据集通过GPT生成歌词与风格标签，经SunoV5合成音频，并采用Qwen3-Omni模型进行全局和段落级风格标注，平均每首歌曲时长为4分钟。数据涵盖中英文双语言（中文4.9万/英文6.6万首），支持长格式歌曲生成研究，解决了学术领域可复现数据匮乏的痛点，适用于音乐生成模型的训练与风格可控性研究。

The Muse synthetic song dataset was constructed by the Natural Language Processing Group of Fudan University. It contains 116,000 fully authorized synthetic songs with a total duration of approximately 7,771 hours. The dataset generates lyrics and style tags via GPT, synthesizes audio using SunoV5, and performs global and paragraph-level style annotation with the Qwen3-Omni model. The average duration of each song is 4 minutes. The data covers both Chinese and English languages, with 49,000 Chinese songs and 66,000 English songs respectively. It supports research on long-form song generation, addressing the pain point of scarce reproducible data in the academic field, and is suitable for training music generation models and research on style controllability.

提供机构：

复旦大学·自然语言处理组

创建时间：

2026-01-07

原始信息汇总

Muse数据集概述

数据集名称

Muse

数据集简介

Muse是一个面向可复现长歌曲生成的数据集，其核心目标在于实现细粒度的风格控制。

搜集汇总

数据集介绍

构建方式

在长格式歌曲生成领域，数据稀缺与版权限制长期制约着学术研究的可复现性。Muse Synthetic Song Dataset的构建采用了一种创新的全自动合成流程，旨在规避版权风险并确保数据的可公开性。该流程首先利用GPT-5 mini生成包含全局风格标签和结构化歌词的文本提示，随后将这些提示输入SunoV5模型以合成完整的歌曲音频及时间对齐的歌词。为确保风格标注的准确性，研究团队进一步使用Qwen3-Omni等音频-语言模型对合成歌曲进行全局与片段级别的风格重标注与验证，并通过文本-音乐相似度模型进行质量过滤。最终数据集包含约11.6万首完全授权的合成歌曲，涵盖中英双语，每首歌曲均配有层次化的风格描述与对齐歌词，为可控的长格式歌曲生成研究提供了高质量、可复现的数据基础。

特点

该数据集的核心特点在于其完全开源、授权清晰且具备精细的结构化标注。与以往依赖未公开或专有数据的歌曲生成研究不同，此数据集的所有样本均基于合成流程生成，彻底避免了版权纠纷，为学术界的公平比较与可复现研究扫清了障碍。数据集中每首歌曲不仅包含完整的音频波形，还附有精确时间戳的歌词以及全局与片段级别的自然语言风格描述，这种层次化的标注体系使得模型能够学习并实现歌曲内部不同结构段落（如主歌、副歌）的细粒度风格控制。此外，数据集规模庞大，总时长超过7700小时，且在中英文歌曲分布上较为均衡，为训练具备强泛化能力的生成模型提供了充分的数据支持。

使用方法

该数据集主要服务于长格式、可控歌曲生成模型的训练与评估。研究人员可利用其层次化的风格-歌词-音频对齐数据，训练类似于Muse的端到端自回归生成模型。具体而言，模型输入可组织为多轮对话形式，首轮指定全局风格，后续各轮则依次输入每个片段的风格描述与歌词，模型需预测对应的音频令牌序列作为响应。在评估阶段，数据集提供的标准标注可用于计算音素错误率、文本-音乐风格相似度等多种客观指标，从而量化生成歌曲在歌词对齐、风格遵循及音频美学质量等方面的性能。通过公开完整的训练与评估流水线，该数据集旨在建立一个统一、公平的基准，推动可控长格式歌曲生成领域的可复现研究与持续进步。

背景与挑战

背景概述

在人工智能音乐生成领域，长格式歌曲生成因其需整合人声、歌词与音乐结构，并维持长时间跨度的连贯性，成为一项极具挑战性的前沿任务。尽管商业系统如Suno已展现出强大能力，但学术研究长期面临可复现性困境，主要源于缺乏公开可用的训练数据。为此，复旦大学自然语言处理实验室于2026年发布了Muse Synthetic Song Dataset。该数据集由研究团队通过自动化流程构建，包含11.6万首完全授权的合成歌曲，每首歌曲均配有自动生成的歌词与细粒度风格描述。其核心研究目标是解决长格式歌曲生成中数据稀缺与版权限制的瓶颈，为可控、可复现的学术研究提供基础资源，推动该领域向开放、公平的比较与分析方向发展。

当前挑战

该数据集旨在解决的领域核心挑战是实现可控的长格式歌曲生成，这涉及对歌词与旋律的精准对齐、跨音乐结构段落的风格一致性以及长时间音频的连贯性建模。在构建过程中，研究团队面临多重具体挑战：首要挑战是版权约束，公开研究中难以获取大量具备合法授权且包含完整人声与伴奏的歌曲数据；其次，需确保合成数据在音乐质量与风格多样性上满足模型训练需求，同时需通过自动化流程生成可靠的歌曲级与段落级风格标注，以支持细粒度可控生成；此外，数据构建还需克服生成模型（如SunoV5）输出与文本提示之间可能存在的风格不一致问题，并通过后处理流程进行验证与优化，以提升标注的准确性与数据集的整体质量。

常用场景

经典使用场景

在音乐生成领域，长格式歌曲合成研究长期面临数据稀缺与版权限制的挑战。Muse Synthetic Song Dataset通过提供11.6万首完全授权的合成歌曲，为学术界构建了可复现的基准平台。该数据集最经典的使用场景在于训练端到端的可控长格式歌曲生成模型，研究者能够基于其层次化的风格标注——包括全局风格标签与段落级风格描述——开发具备细粒度结构控制能力的生成系统。数据集中的每首歌曲均包含时间对齐的歌词与由SunoV5合成的音频，为建模歌词与旋律的长期对齐关系提供了关键支撑。

实际应用

在实际应用层面，该数据集为开发开源可控音乐生成工具提供了关键资源。基于此数据集训练的Muse模型已展示出在生成质量、风格可控性方面的竞争力，能够支持用户通过自然语言指令定制不同段落风格的完整歌曲。这为音乐创作辅助、个性化内容生成、教育演示等场景提供了技术基础。数据集的完全开源特性也降低了行业进入门槛，促进了学术成果向产业应用的转化，为构建透明、可审计的音乐生成生态系统贡献了基础设施。

衍生相关工作

该数据集的发布催生了一系列围绕可控长格式歌曲生成的衍生研究。以Muse模型为代表的工作验证了单阶段监督微调在统一音频-语言建模框架下的有效性，为后续研究提供了简洁而强大的基线。其层次化标注范式启发了对音乐结构语义的深入探索，促进了如DiffRhythm、LeVo等模型在可控生成方面的改进。数据集构建中采用的合成-重标注流程也为解决音乐数据版权约束提供了可借鉴的方法论，推动了开源音乐生成社区的协作创新。

以上内容由遇见数据集搜集并总结生成

Muse Synthetic Song Dataset

资源简介：

Muse数据集概述

数据集名称

数据集简介

相关数据集