Prompt2MusicLibrary
收藏Hugging Face2025-08-26 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/bodhisattamaiti/Prompt2MusicLibrary
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含音频和音乐相关数据的数据集,适用于音频分类和零样本分类任务。数据集包含多种音乐类型和特点,如流派分类、乐器分类、情绪分类和节奏分析等。数据集大小在10K到100K之间。
创建时间:
2025-08-25
原始信息汇总
Prompt2MusicLibrary 数据集概述
数据集基本信息
- 名称:Prompt2MusicLibrary
- 创建者:Bodhisatta Maiti
- 资助方:无
- 共享者:Bodhisatta Maiti
- 语言:英语
- 许可证:CC BY NC SA 4.0
- 规模:10K<n<100K
数据集来源
- Zenodo:https://doi.org/10.5281/zenodo.16939429
- Kaggle:https://www.kaggle.com/datasets/bodhisattamaiti/prompt2musiclibrary
- Hugging Face:https://huggingface.co/datasets/bodhisattamaiti/Prompt2MusicLibrary
数据集内容
数据构成
- 音频数量:24,800个AI生成的20秒音乐片段
- 生成模型:facebook/musicgen-small
- 音频格式:MP3(128 kbps,20秒)
- 存储方式:分为两个ZIP压缩包
- Prompt2MusicLibrary_p0_v1.zip(12,400个音频,paraphrase_id=0)
- Prompt2MusicLibrary_p1_v1.zip(12,400个音频,paraphrase_id=1)
元数据结构
CSV文件包含以下字段:
- id:唯一整数标识符
- prompt_text:完整结构化提示文本
- genre:音乐流派(11种:ambient、lo-fi hip hop、jazz、rock、pop、house、techno、trap、drum and bass、classical、folk)
- tempo_bpm:目标速度(BPM)
- instrument:主要乐器(流派特定)
- mood:情绪描述(peaceful、melancholic、romantic、suspenseful等)
- structure_id:提示结构模板标识(8种类型)
- paraphrase_id:释义变体标识(0或1)
- filename:音频文件名
核心特征
结构化提示要素
- 流派:11种选项
- 乐器:20秒片段中最突出的乐器
- 速度:基于流派的合理BPM范围
- 情绪: joyful、melancholic、mysterious等
- 结构标识:8种提示表述方式
- 释义标识:两种语义等效的重新措辞
提示结构类型
8种结构标识:
- canonical_simple
- genre_first
- instrument_first
- mood_emphasized
- verbose_descriptive
- minimal_terse
- instructional_command
- creative_poetic
应用场景
适用用途
- 评估文本到音乐模型的可控性(流派、乐器、情绪、速度对齐)
- 研究提示措辞敏感性(结构标识和释义标识的影响)
- 基准音乐标记模型(流派/乐器对齐任务)
- 支持MIR和人类-AI协同创造研究
不适用用途
- 训练新的音乐生成模型(数据来自MusicGen合成)
- 商业音乐制作或作为免版税循环重新分发
- 乐谱级任务(转录、符号音乐分析)
- 敏感应用(如音乐治疗、临床使用)
创建背景
创建目的
研究文本到音乐生成中的可控性,通过变化流派、乐器、速度、情绪和措辞(结构标识、释义标识)来测试措辞对输出的影响。
数据来源
- 不依赖外部录音或符号乐谱
- 所有音频均使用facebook/musicgen-small模型从结构化提示生成
- 提示由创建者手动策划,涵盖平衡的流派、乐器、速度、情绪和提示措辞变体
限制与注意事项
- 反映底层facebook/musicgen-small模型的能力和偏见
- 情绪标签由提示驱动而非人工验证
- 不应视为真实人类表演的代表
引用信息
APA格式: Maiti, B. (2025). Prompt2MusicLibrary: Exploring Controllability in Text-to-Music via Structured Prompts [Data set]. Zenodo. https://doi.org/10.5281/zenodo.16939429
搜集汇总
数据集介绍

构建方式
Prompt2MusicLibrary数据集的构建依托于结构化文本提示词系统,通过精心设计的提示模板生成音乐片段。研究团队采用facebook/musicgen-small模型,基于11种音乐流派、特定乐器、合理BPM范围及情感描述等维度,系统生成了24,800段20秒长度的MP3音频。每个提示词均包含八种句式结构和两种语义等效的复述变体,确保生成过程具有可追溯的语言学特征和可控性参数。
使用方法
研究者可通过解析配套CSV元数据文件,精准定位特定音乐属性和语言特征的样本组合。该数据集适用于文本到音乐生成模型的可控性评估、音乐标注模型基准测试以及多模态人工智能系统的性能验证。使用时需注意其合成数据的本质,不建议用于商业音乐制作或生成模型的训练过程,而应专注于提示词工程和音乐信息检索领域的学术研究。
背景与挑战
背景概述
Prompt2MusicLibrary数据集由Bodhisatta Maiti于2025年创建,作为文本到音乐生成领域的重要研究资源,旨在系统探索提示词工程对音乐可控性的影响。该数据集包含24,800段由facebook/musicgen-small模型生成的20秒音乐片段,每段音乐均基于结构化文本提示生成,涵盖11种音乐流派、多种乐器配置、节奏模式和情感表达。通过精心设计的提示词模板与语义等价复述变体,该数据集为多模态音乐生成的可控性评估提供了标准化基准,推动了计算音乐学与人类-AI协同创作研究的发展。
当前挑战
该数据集核心挑战在于解决文本到音乐生成中提示词敏感性与输出对齐的量化难题,具体包括:提示词语义微调对音乐特征(流派、乐器、情感)控制精度的非线性影响;合成数据与人类感知评估之间的验证鸿沟;以及音乐生成模型内在偏见导致的跨流派生成质量不均衡。构建过程中面临多维度提示词框架的设计复杂性,需平衡语言学多样性与音乐参数的系统性覆盖,同时确保生成效率与大规模合成数据的质量控制。
常用场景
经典使用场景
在音乐信息检索与生成式人工智能交叉领域,Prompt2MusicLibrary为系统化研究文本到音乐生成模型的可控性提供了标准实验环境。研究者通过其精心设计的结构化提示词模板,能够精确分析不同句式结构对音乐风格、乐器音色、情绪表达及节奏精度的影响机制,尤其适用于多模态语义对齐任务的量化评估。
解决学术问题
该数据集有效解决了生成式音乐系统中提示词语义敏感度测量的核心难题,通过控制变量法分离语言表述与音乐特征间的映射关系。其价值体现在为可控音乐生成提供了可复现的基准测试框架,显著推进了对神经网络音乐生成模型可解释性与稳定性的理论研究,填补了该领域缺乏系统化评估工具的空白。
实际应用
除学术研究外,该数据集在智能音乐制作工具开发中具有重要实践意义。工程师可依据其提示词响应规律优化交互界面设计,辅助创作者通过精准文本描述生成预期风格的音乐片段。同时为音乐教育领域提供了可控的听觉材料生成方案,支持个性化学习资源的自动化构建。
数据集最近研究
最新研究方向
在生成式音乐人工智能领域,Prompt2MusicLibrary数据集为系统研究提示词工程对音乐可控性的影响提供了重要基准。当前研究聚焦于多模态提示结构与生成音乐属性(如风格、乐器、情绪及节奏)的关联机制,探索不同句式模板与语义改写对生成结果一致性的影响。该数据集支持零样本音频分类模型的评估,尤其在跨提示结构的泛化能力测试中展现价值,同时为音乐信息检索与人类-AI协同创作的前沿研究提供数据基础。其结构化设计推动了文本到音乐生成模型的可解释性与可控性研究,对优化生成式音乐系统的提示策略具有显著意义。
以上内容由遇见数据集搜集并总结生成



