Prompt2MusicLibrary

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/bodhisattamaiti/Prompt2MusicLibrary

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含音频和音乐相关数据的数据集，适用于音频分类和零样本分类任务。数据集包含多种音乐类型和特点，如流派分类、乐器分类、情绪分类和节奏分析等。数据集大小在10K到100K之间。

创建时间：

2025-08-25

原始信息汇总

Prompt2MusicLibrary 数据集概述

数据集基本信息

名称：Prompt2MusicLibrary
创建者：Bodhisatta Maiti
资助方：无
共享者：Bodhisatta Maiti
语言：英语
许可证：CC BY NC SA 4.0
规模：10K<n<100K

数据集来源

Zenodo：https://doi.org/10.5281/zenodo.16939429
Kaggle：https://www.kaggle.com/datasets/bodhisattamaiti/prompt2musiclibrary
Hugging Face：https://huggingface.co/datasets/bodhisattamaiti/Prompt2MusicLibrary

数据集内容

数据构成

音频数量：24,800个AI生成的20秒音乐片段
生成模型：facebook/musicgen-small
音频格式：MP3（128 kbps，20秒）
存储方式：分为两个ZIP压缩包
- Prompt2MusicLibrary_p0_v1.zip（12,400个音频，paraphrase_id=0）
- Prompt2MusicLibrary_p1_v1.zip（12,400个音频，paraphrase_id=1）

元数据结构

CSV文件包含以下字段：

id：唯一整数标识符
prompt_text：完整结构化提示文本
genre：音乐流派（11种：ambient、lo-fi hip hop、jazz、rock、pop、house、techno、trap、drum and bass、classical、folk）
tempo_bpm：目标速度（BPM）
instrument：主要乐器（流派特定）
mood：情绪描述（peaceful、melancholic、romantic、suspenseful等）
structure_id：提示结构模板标识（8种类型）
paraphrase_id：释义变体标识（0或1）
filename：音频文件名

核心特征

结构化提示要素

流派：11种选项
乐器：20秒片段中最突出的乐器
速度：基于流派的合理BPM范围
情绪： joyful、melancholic、mysterious等
结构标识：8种提示表述方式
释义标识：两种语义等效的重新措辞

提示结构类型

8种结构标识：

canonical_simple
genre_first
instrument_first
mood_emphasized
verbose_descriptive
minimal_terse
instructional_command
creative_poetic

应用场景

适用用途

评估文本到音乐模型的可控性（流派、乐器、情绪、速度对齐）
研究提示措辞敏感性（结构标识和释义标识的影响）
基准音乐标记模型（流派/乐器对齐任务）
支持MIR和人类-AI协同创造研究

不适用用途

训练新的音乐生成模型（数据来自MusicGen合成）
商业音乐制作或作为免版税循环重新分发
乐谱级任务（转录、符号音乐分析）
敏感应用（如音乐治疗、临床使用）

创建背景

创建目的

研究文本到音乐生成中的可控性，通过变化流派、乐器、速度、情绪和措辞（结构标识、释义标识）来测试措辞对输出的影响。

数据来源

不依赖外部录音或符号乐谱
所有音频均使用facebook/musicgen-small模型从结构化提示生成
提示由创建者手动策划，涵盖平衡的流派、乐器、速度、情绪和提示措辞变体

限制与注意事项

反映底层facebook/musicgen-small模型的能力和偏见
情绪标签由提示驱动而非人工验证
不应视为真实人类表演的代表

引用信息

APA格式： Maiti, B. (2025). Prompt2MusicLibrary: Exploring Controllability in Text-to-Music via Structured Prompts [Data set]. Zenodo. https://doi.org/10.5281/zenodo.16939429

搜集汇总

数据集介绍

构建方式

Prompt2MusicLibrary数据集的构建依托于结构化文本提示词系统，通过精心设计的提示模板生成音乐片段。研究团队采用facebook/musicgen-small模型，基于11种音乐流派、特定乐器、合理BPM范围及情感描述等维度，系统生成了24,800段20秒长度的MP3音频。每个提示词均包含八种句式结构和两种语义等效的复述变体，确保生成过程具有可追溯的语言学特征和可控性参数。

使用方法

研究者可通过解析配套CSV元数据文件，精准定位特定音乐属性和语言特征的样本组合。该数据集适用于文本到音乐生成模型的可控性评估、音乐标注模型基准测试以及多模态人工智能系统的性能验证。使用时需注意其合成数据的本质，不建议用于商业音乐制作或生成模型的训练过程，而应专注于提示词工程和音乐信息检索领域的学术研究。

背景与挑战

背景概述

Prompt2MusicLibrary数据集由Bodhisatta Maiti于2025年创建，作为文本到音乐生成领域的重要研究资源，旨在系统探索提示词工程对音乐可控性的影响。该数据集包含24,800段由facebook/musicgen-small模型生成的20秒音乐片段，每段音乐均基于结构化文本提示生成，涵盖11种音乐流派、多种乐器配置、节奏模式和情感表达。通过精心设计的提示词模板与语义等价复述变体，该数据集为多模态音乐生成的可控性评估提供了标准化基准，推动了计算音乐学与人类-AI协同创作研究的发展。

当前挑战

该数据集核心挑战在于解决文本到音乐生成中提示词敏感性与输出对齐的量化难题，具体包括：提示词语义微调对音乐特征（流派、乐器、情感）控制精度的非线性影响；合成数据与人类感知评估之间的验证鸿沟；以及音乐生成模型内在偏见导致的跨流派生成质量不均衡。构建过程中面临多维度提示词框架的设计复杂性，需平衡语言学多样性与音乐参数的系统性覆盖，同时确保生成效率与大规模合成数据的质量控制。

常用场景

经典使用场景

在音乐信息检索与生成式人工智能交叉领域，Prompt2MusicLibrary为系统化研究文本到音乐生成模型的可控性提供了标准实验环境。研究者通过其精心设计的结构化提示词模板，能够精确分析不同句式结构对音乐风格、乐器音色、情绪表达及节奏精度的影响机制，尤其适用于多模态语义对齐任务的量化评估。

解决学术问题

该数据集有效解决了生成式音乐系统中提示词语义敏感度测量的核心难题，通过控制变量法分离语言表述与音乐特征间的映射关系。其价值体现在为可控音乐生成提供了可复现的基准测试框架，显著推进了对神经网络音乐生成模型可解释性与稳定性的理论研究，填补了该领域缺乏系统化评估工具的空白。

实际应用

除学术研究外，该数据集在智能音乐制作工具开发中具有重要实践意义。工程师可依据其提示词响应规律优化交互界面设计，辅助创作者通过精准文本描述生成预期风格的音乐片段。同时为音乐教育领域提供了可控的听觉材料生成方案，支持个性化学习资源的自动化构建。

数据集最近研究