MQAD
收藏arXiv2025-08-27 更新2025-08-29 收录
下载链接:
https://github.com/oyzh888/MQAD
下载链接
链接失效反馈官方服务:
资源简介:
MQAD数据集是基于百万歌曲数据集(MSD)构建的音乐问答数据集,涵盖了丰富的音乐特征,包括节奏、和弦、调性、结构、乐器和流派等,跨越了27万首曲目,包含近300万个多样化的问题和说明。该数据集通过音乐信息检索(MIR)模型提取高级音乐特征,并利用大型语言模型(LLM)生成自然语言问答对。MQAD数据集旨在解决现有音乐数据集缺乏对音乐结构、和弦进行深入分析的问题,并为训练音乐大型语言模型提供支持。
The MQAD dataset is a music question-answering (QA) dataset constructed based on the Million Song Dataset (MSD). It encompasses 270,000 music tracks and contains nearly 3 million diverse QA pairs and explanatory contents, featuring rich musical features including rhythm, chords, tonality, structure, instruments and genres. High-level musical features are extracted via Music Information Retrieval (MIR) models, and natural language QA pairs are generated using Large Language Models (LLMs). The MQAD dataset aims to address the limitation that existing music datasets lack in-depth analysis of musical structure and chord progressions, and provides support for training music-specific large language models.
提供机构:
字节跳动
创建时间:
2025-08-27
原始信息汇总
MQAD 数据集概述
数据集简介
MQAD 是一个大规模音乐问答数据集,专为训练音乐大语言模型设计。该数据集包含约300万问答对和描述,涵盖27万首音乐曲目。
数据集内容
数据规模
- 问答对数量:约300万
- 音乐曲目数量:27万首
数据格式
数据集采用JSON格式存储,每个样本包含以下字段:
- audio:音频文件名
- question:关于音乐的问题
- answer:对应的详细回答
示例数据
json {"audio": "1463896.clip.mp3", "question": "How does the unique chord progression in this clip contribute to its jazz genre?", "answer": "The chord progression in this clip features a broad range of major, minor, and sharp chords, such as D:maj, B:min, C#:maj, and F#:maj, among others. This variety contributes to the jazz genres characteristic harmonic complexity and richness..."}
数据来源与生成
数据集通过代码生成,主要生成脚本为:
- gen_qa.py
下载信息
完整数据集
- 文件名:gpt4_caption_4_3.tar.gz
- 下载地址:https://github.com/oyzh888/MQAD/data/gpt4_caption_4_3.tar.gz
示例材料
- 文件名:mqad_materials.zip
- 下载地址:https://github.com/oyzh888/MQAD/data/mqad_materials.zip
技术文档
- 详细技术论文:https://github.com/oyzh888/MQAD/data/MQAD_ICASSP_2025_Final.pdf
开源计划
- [√] 发布数据生成代码
- [√] 发布示例数据和文档
- [√] 添加原始JSON文件示例
- [√] 发布完整数据集
- [] 添加README和启动脚本
- [] 开源训练代码(待定)
搜集汇总
数据集介绍

构建方式
在音乐信息检索领域,构建高质量问答数据集面临标注成本高昂的挑战。MQAD数据集基于百万歌曲数据集(MSD),采用专业音乐信息检索模型提取多层次音乐特征,包括节拍跟踪、和弦识别、结构分割和乐器转录等关键技术。通过检索增强生成技术结合音乐专家设计的元问题,利用GPT-4 Turbo生成高质量问答对,显著将问题重复率从5%降低至0.05%,最终形成包含270,000首曲目近300万问答对的丰富语料库。
特点
该数据集的核心优势体现在其前所未有的规模与深度,覆盖节拍、和弦、调性、结构、乐器和流派等多元音乐维度。区别于传统音乐标注数据集,MQAD特别提供时变音乐信息的细粒度标注,如和弦进行与段落结构的时间戳记录,使模型能够深入分析音乐内部的动态演变过程。每个问答对平均包含102.6个词汇,远高于同类数据集,为训练大规模音乐语言模型提供了详实的结构化知识基础。
使用方法
研究者可通过官方GitHub仓库获取数据集,采用多模态大语言模型架构进行端到端训练。典型实施方案整合LLaMA2作为文本编码器、Whisper作为音频编码器,支持30秒音频片段输入并转换为80梅尔频带的对数频谱图。训练过程采用AdamW优化器与余弦学习率调度,支持全参数微调与LoRA高效微调两种模式。评估体系包含BLEU、ROUGE-L等客观指标以及基于GPT-4 Turbo的主观音乐维度评估,确保模型输出的音乐专业性与语言流畅性。
背景与挑战
背景概述
音乐问答数据集MQAD由字节跳动研究团队于2025年构建,旨在解决音乐信息检索领域缺乏大规模高质量问答数据的核心问题。该数据集基于百万歌曲数据集(MSD)开发,涵盖27万首音乐曲目,包含近300万个多样化问答对,涉及节拍、和弦、调性、曲式结构、乐器及流派等多维度音乐特征。MQAD的突出贡献在于提供了时变音乐信息的细粒度标注,为音乐大语言模型的训练奠定了数据基础,显著推动了音乐理解与生成研究的发展。
当前挑战
MQAD面临的领域挑战在于音乐问答需要模型同时具备音频信号处理与自然语言理解的双重能力,特别是对和弦进行、曲式结构等时序特征的精准解析。构建过程中的技术挑战包括:如何通过音乐信息检索模型从原始音频中提取高精度时序特征;如何利用大语言模型生成既符合音乐专业知识又具备语言多样性的问答对;以及如何通过检索增强生成技术降低问题重复率至0.05%以下,确保数据质量与多样性。
常用场景
解决学术问题
MQAD有效解决了音乐人工智能领域长期存在的标注数据稀缺问题,特别是针对时序性音乐特征的深度解析需求。该数据集通过近300万对问答数据,系统覆盖了和弦进行、曲式结构、乐器配置等传统方法难以准确捕捉的复杂音乐元素,为音乐结构分析、情感计算和生成模型提供了可靠的数据基础,显著推进了计算音乐学的研究边界。
衍生相关工作
MQAD催生了多项创新性研究工作,其中最具代表性的是基于LLaMA2和Whisper架构的多模态音乐大模型MMQAD。该模型在音乐问答和标注任务中实现了突破性性能,启发了后续如MusicAgent等自主音乐理解系统的开发。数据集还促进了基于GPT-4Turbo的自动化评估体系的建立,为音乐人工智能领域提供了新的性能基准测试范式。
以上内容由遇见数据集搜集并总结生成



