MMusSet

Name: MMusSet
Creator: 山西大学
Published: 2025-04-18 15:59:35
License: 暂无描述

arXiv2025-04-18 更新2025-04-22 收录

下载链接：

http://arxiv.org/abs/2504.13535v1

下载链接

链接失效反馈

官方服务：

资源简介：

MMusSet是一个由山西大学构建的新型多模态音乐数据集，包含33300条样本，每个样本由一幅场景图像、一个故事文本、一段音乐字幕和一段音乐作品组成。该数据集通过多智能体协作的数据标注工作流程构建，旨在促进多模态音乐生成研究，使得音乐创作更加易于接触。

MMusSet is a novel multimodal music dataset constructed by Shanxi University. It includes 33,300 samples, each of which consists of a scene image, a story text, a music lyric, and a musical work. This dataset is built via a multi-agent collaborative data annotation workflow, aiming to advance multimodal music generation research and make music creation more accessible.

提供机构：

山西大学

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

MMusSet数据集的构建采用了创新的多智能体协作工作流程，通过精心设计的四个智能体（脚本写作代理、脚本审查代理、音乐创作代理和音乐过滤代理）实现了图像数据集与音乐数据集的自动化匹配与筛选。该流程以微调的Qwen2-VL模型为核心，结合预训练的BLIP、CLIP和CLAP模型，实现了从场景图像到故事文本、音乐描述的语义转换，最终形成包含图像-故事文本-音乐描述-音乐片段四元组的标准化样本。数据集共包含33.3k个10秒音乐片段，总时长92.5小时，每个样本都经过严格的相似度阈值筛选（CLIP分数≥0.3，CLAP分数≥0.3），确保了多模态数据间的语义一致性。

特点

作为首个同时包含图像与故事文本的多模态音乐数据集，MMusSet具有三个显著特征：其一，多模态覆盖的完整性，每个样本包含视觉（图像）、叙事（故事文本）、音乐语义（描述）和音频四重信息；其二，语义关联的精确性，通过多级智能体审核机制确保跨模态内容在情感、场景和风格维度的高度匹配；其三，应用场景的多样性，支持图像到音乐、故事到音乐、描述到音乐以及多模态混合生成等多种任务。数据集中音乐片段均采用16kHz采样率，Mel频谱图通过预训练VAE编码为潜在空间表示，为流匹配模型提供标准化输入。

使用方法

MMusSet数据集主要服务于多模态音乐生成模型的训练与评估。使用时需经过三个关键步骤：首先通过CLIP编码器提取图像和故事文本的512维特征，经MLP适配器对齐至CLAP音频特征空间；随后将多模态条件嵌入向量输入基于Transformer-UNet架构的流匹配模型，在VAE潜在空间中重建Mel频谱图；最后通过HiFi-GAN声码器生成波形。为提升模型鲁棒性，建议采用随机条件掩码策略，模拟不同模态组合的输入场景。数据集已按9:1比例划分训练验证集，评估时可选用FAD、KL散度、CLAP分数和ImageBind分数等指标，兼顾生成质量与语义对齐度的衡量。

背景与挑战

背景概述

MMusSet是一个多模态音乐数据集，由山西大学的Jiahao Song和Yuzhao Wang等研究人员于2025年构建。该数据集旨在解决多模态音乐生成领域的核心研究问题，即如何基于图像、故事文本和音乐描述生成高质量的音乐片段。MMusSet包含33.3k个10秒音乐片段，总时长达92.5小时，每个样本由场景图像、故事文本、音乐描述和音乐片段四元组构成。该数据集的构建采用了基于多智能体协作的智能数据标注工作流，利用预训练的视觉语言模型（如Qwen2-VL）实现图像数据集与音乐数据集的自主匹配与筛选。MMusSet的发布为多模态音乐生成领域的研究提供了重要的数据支持，推动了音乐生成在多媒体领域的应用。

当前挑战

MMusSet面临的挑战主要体现在两个方面。首先，在领域问题方面，多模态音乐生成需要模型能够理解并融合不同模态（如图像、文本）的信息，生成符合人类审美的高质量音乐。然而，现有模型在处理非音乐描述文本（如故事文本）时往往难以准确捕捉其隐含的音乐特征，导致生成的音乐与输入条件语义不一致。其次，在数据集构建过程中，研究人员面临多模态数据稀缺和标注成本高的挑战。传统音乐数据集通常仅包含音乐描述文本，缺乏图像、故事等多模态信息。MMusSet通过设计多智能体工作流，利用预训练模型实现自动化的多模态数据匹配与筛选，有效降低了标注成本，但如何确保生成数据的质量和多样性仍是一个关键挑战。

常用场景

经典使用场景

在多媒体内容创作领域，MMusSet数据集为多模态音乐生成任务提供了丰富的训练资源。该数据集通过整合图像、故事文本、音乐描述和音乐片段四元组数据，为研究者探索跨模态音乐生成模型（如MusFlow）提供了理想实验平台。其典型应用场景包括电影配乐自动生成系统，模型能够根据剧本场景描述或分镜画面，创作情感匹配的背景音乐，显著降低了专业配乐的门槛。

解决学术问题

MMusSet有效解决了多模态音乐生成领域三大核心问题：其一，突破传统文本到音乐生成的单一模态限制，通过引入视觉与叙事模态扩展了条件输入的维度；其二，针对非音乐专业文本（如故事）的隐含音乐特征提取难题，数据集提供的对齐四元组数据为跨模态语义映射研究奠定基础；其三，缓解了该领域高质量多模态数据稀缺的困境，其33.3k样本量及92.5小时总时长远超同类数据集规模。

衍生相关工作

基于MMusSet的基准研究催生了多模态音乐生成领域的重要进展，包括：MusicFlow提出的级联流匹配架构优化了跨模态特征对齐；M2UGen探索的大型语言模型中介方案提升了多条件融合能力；Mustango则专注于细粒度音乐属性控制。这些工作共同推动了从单模态提示到复杂多模态条件生成的范式转变，相关成果已应用于AIGC音乐创作平台开发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集