Prompt2MusicBench

Hugging Face2025-08-24 更新2025-08-25 收录

下载链接：

https://huggingface.co/datasets/bodhisattamaiti/Prompt2MusicBench

下载链接

链接失效反馈

官方服务：

资源简介：

Prompt2MusicBench是一个包含24800个结构化文本提示的大型数据集，旨在研究文本到音乐模型（如MusicGen）的控制性。提示文本系统地在音乐风格、节奏（BPM）、乐器和情绪上进行变化，并为每种组合提供了8种结构变体×2种释义形式。该数据集仅包含提示文本（CSV格式），不包含音频文件。与之配套的数据集（Prompt2MusicLibrary，制作中）将提供从这些提示生成的音频剪辑子集。

创建时间：

2025-08-20

原始信息汇总

Prompt2MusicBench 数据集概述

数据集基本信息

名称：Prompt2MusicBench
规模：24,800 条结构化文本提示
语言：英语
许可协议：CC BY 4.0
创建者：Bodhisatta Maiti

数据集用途

训练或评估音频分类模型（流派、乐器、情绪、速度）
评估文本到音乐模型的可控性
研究音乐生成中的提示工程效果
作为多模态模型的资源（文本与音频对齐）

数据集结构

格式：CSV 文件
列信息：
- id：唯一整数标识符
- prompt_text：完整结构化提示文本
- genre：音乐流派（11 种）
- tempo_bpm：目标速度（BPM）
- instrument：主要乐器（流派特定）
- mood：情绪描述符
- structure_id：提示结构模板标识（8 种类型）
- paraphrase_id：释义变体标识（0 或 1）

音乐属性分类

流派：环境音乐、低保真嘻哈、爵士、摇滚、流行、浩室、科技舞曲、陷阱音乐、鼓打贝斯、古典、民谣
速度：每分钟节拍数（BPM）
乐器：流派特定的主要乐器
情绪：平和、忧郁、浪漫、悬疑等

创建方法

基于音乐制作实践和音乐信息检索参考的合成生成
程序化组合属性和结构模板
人工策划确保合理性

局限性

仅包含文本提示，无音频文件
覆盖流派和乐器有限
提示为人工合成，可能无法完全捕捉自然语言描述
效果取决于所使用的文本到音乐模型

引用格式

Maiti, B. (2025). Prompt2MusicBench: A Structured Prompt Dataset for Controllable Music Generation [Data set]. Zenodo. https://doi.org/10.5281/zenodo.16908031

搜集汇总

数据集介绍

构建方式

Prompt2MusicBench的构建基于音乐信息检索领域的专业实践，通过程序化方式系统生成结构化文本提示。研究团队首先手工策划了11种音乐流派、合理速度区间、流派特定乐器及情感描述符的映射关系，确保每个组合的音乐属性符合行业标准。随后采用八种句式模板与两种释义变体，自动组合生成24,800条具有严格控制的文本提示，所有数据以CSV格式存储且不含任何人工标注或音频内容。

使用方法

在使用该数据集时，研究者可将其作为评估文本到音乐生成模型可控性的基准工具。通过将结构化提示输入至如MusicGen等生成模型，可系统性分析生成音频与提示属性的一致性，例如验证模型是否准确响应特定BPM要求或乐器指令。此外，该数据集支持零样本音频分类任务，可用于训练跨模态对齐模型，但需注意其不包含真实音频数据，需配合生成音频或外部数据集进行验证。

背景与挑战

背景概述

Prompt2MusicBench数据集由Bodhisatta Maiti于2025年构建，旨在系统化评估文本到音乐生成模型的可控性。该数据集包含24800条结构化文本提示，涵盖11种音乐流派、特定节奏范围、乐器组合及情感描述，通过8种句式模板与2种复述变体实现多维控制。作为音乐信息检索与生成式人工智能交叉领域的重要资源，它为量化模型对文本指令的响应精度提供了标准化基准，推动了可控音乐生成技术的发展。

当前挑战

该数据集核心挑战在于解决文本到音乐生成中多属性协同控制的评估难题，包括模型对流派、节奏、乐器与情感的跨维度指令遵循能力。构建过程中需克服音乐属性合理映射的复杂性，如确保节奏与乐器的风格兼容性，并规避自然语言描述的偏差。此外，合成提示词与真实音乐文本的语义差距，以及西方音乐流派占主导导致的文化多样性缺失，均为其应用带来局限性。

常用场景

经典使用场景

在音乐信息检索领域，Prompt2MusicBench数据集通过结构化文本提示系统评估文本到音乐生成模型的可控性。研究者利用其涵盖流派、节奏、乐器和情绪的多样化提示组合，测试模型对特定音乐属性的响应精度，例如验证生成音频是否准确匹配提示中指定的120BPM节奏或爵士乐风格。

解决学术问题

该数据集解决了文本到音乐生成中缺乏系统性评估基准的学术难题，为量化模型对多维度音乐属性的控制能力提供标准化工具。通过解构提示模板与音乐特征的映射关系，它促进了生成模型的可解释性研究，并推动了音乐生成领域从粗粒度生成向精细化可控生成的范式转变。

实际应用

实际应用中，该数据集可作为音乐制作辅助工具的开发基础，帮助构建智能编曲系统根据文字描述自动生成符合要求的背景音乐。同时为流媒体平台提供音乐内容标签自动化分类的测试框架，增强音乐推荐系统中基于语义的音频检索能力。

数据集最近研究