DadaGP
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/dada-bots/dadagp
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为DadaGP,包含了26,181首歌曲,并以两种形式呈现:标记格式和GuitarPro格式。它专为以吉他为重点的符号音乐生成而设计,使用适合拨弦乐器的语法格式来表示音符。此外,该数据集支持多种乐器,并包含了表达技巧和指法信息。通过使用专门的编码/解码工具,可以在标记格式和GuitarPro格式之间进行转换。该数据集的规模达到了26,181首歌曲,其任务是用吉他谱进行符号音乐的生成。
DadaGP is a dedicated dataset for guitar-focused symbolic music generation, comprising 26,181 songs available in two formats: tokenized format and GuitarPro format. It utilizes grammatical structures tailored for plucked string instruments to represent musical notes. Additionally, this dataset supports a wide range of musical instruments and incorporates performance techniques as well as fingering information. Specialized encoding/decoding tools are provided to enable seamless conversion between the two formats. The core task supported by this dataset is symbolic music generation using guitar tablature.
搜集汇总
数据集介绍

构建方式
DadaGP数据集源自网络上广泛流传的GuitarPro格式乐谱,通过系统性地收集与整理,最终汇聚了26,181首歌曲,横跨739种音乐流派。为了便于序列模型处理,研究团队设计了一套精巧的编码与解码工具,该工具基于PyGuitarPro库提取乐谱中的音乐理论特征与演奏技法信息,并将其转化为受事件驱动型MIDI编码启发的令牌序列。每个令牌对应特定的音乐事件,如音符、休止、技法标记等,从而将复杂的多轨吉他乐谱转化为结构化的文本格式。
特点
该数据集的核心特色在于其丰富的表现力与多维度信息。它不仅涵盖了音高、节奏、调式等基础音乐要素,还独特地包含了吉他演奏技法(如制音、滑音、锤钩弦等)的详细标注,这是传统MIDI数据集所欠缺的。此外,每首歌曲均附带艺术家与流派标签,且支持最多九种乐器的并行编排,包括失真吉他、清音吉他、贝斯、鼓组等,真实还原了乐队编制。令牌格式的设计具有鲁棒性,即便随机生成序列也能被解码为可播放的乐谱,极大激发了创造性应用的潜力。
使用方法
使用DadaGP时,研究者可借助配套的Python工具实现GuitarPro文件与令牌序列的双向转换。对于生成任务,模型需以固定的起始令牌序列(包含艺术家、调弦、速度和起始标记)作为条件输入,随后生成后续的令牌。生成的令牌序列通过解码器即可还原为GuitarPro格式的乐谱,并在TuxGuitar或MuseScore等软件中播放与编辑。该数据集特别适用于训练基于Transformer架构的符号音乐生成模型,也可用于吉他-贝斯转录、音乐风格迁移及艺术家/流派分类等下游任务,为音乐信息检索领域提供了全新的研究载体。
背景与挑战
背景概述
指法谱作为一种源远流长的音乐记谱体系,自文艺复兴时期起便与琉特琴 repertoire 紧密相连,其以符号到动作的记述方式,为弦乐器演奏者提供了直观的指法信息,相较于描述音高的标准记谱法,更具包容性与学习友好性。随着数字时代的到来,GuitarPro 软件及其文件格式已成为音乐家编辑、分享与学习乐曲的广泛工具,尤其在摇滚与金属乐社群中具有极高普及度。然而,现有符号音乐数据集多集中于 MIDI 格式,缺乏同时包含吉他演奏技法信息与多乐器编制的资源。为此,来自伦敦玛丽女王大学、中央研究院、印度理工学院克勒格布尔分校及 Dadabots 的研究团队于 2021 年发布了 DadaGP 数据集,包含 26,181 首 GuitarPro 格式的歌曲,覆盖 739 种音乐风格,并配套设计了适用于 Transformer 等序列模型的 token 化编码格式。该数据集不仅填补了多乐器指法谱数据空白,更为符号音乐生成、吉他-贝斯转录、风格迁移及艺术家/风格分类等研究领域提供了关键支撑,推动了音乐信息检索社区对表现力丰富的指法谱数据的深入探索。
当前挑战
DadaGP 数据集所面临的挑战主要体现在两个层面。在领域问题层面,符号音乐生成任务需应对多乐器编排的长期依赖性与结构连贯性,现有模型如 Transformer-XL 虽能捕捉较长上下文,但在生成过程中仍易出现 token 语法错误(如 end token 的重复),导致乐曲被意外截断或结构失衡。此外,数据集虽包含吉他演奏技法信息,但缺乏力度与表情动态的精细表示,限制了生成音乐的表现力。在构建过程中,挑战集中于数据清洗与特征提取:GuitarPro 文件普遍缺失调性标记,93.7% 的乐曲被自动归为 C 大调,导致统计失真;稀有调弦与声乐部分因编码器不支持而被剔除;歌词信息亦未被纳入 token 格式。同时,从 Spotify API 获取的风格标签存在多标签重叠与噪声问题,需进一步校验。这些挑战不仅影响了数据集的质量与代表性,也对下游任务的模型训练与泛化能力构成了显著制约。
常用场景
经典使用场景
在符号音乐生成领域,DadaGP 数据集以其独特的吉他指法谱(tablature)格式和丰富的多乐器标注,成为训练 Transformer 等序列模型生成多声部音乐作品的理想资源。研究人员利用其包含 26,181 首歌曲、覆盖 739 种音乐风格的庞大语料库,结合基于事件的 token 化编码方法,能够高效地学习乐器指法、节奏模式与演奏技法之间的复杂关联,从而生成具有结构连贯性和风格多样性的吉他谱。这一经典用法不仅突破了传统 MIDI 数据集在演奏技法表达上的局限,更为吉他、贝斯与鼓等乐器的协同创作提供了可复现的符号化基础。
解决学术问题
DadaGP 的核心学术贡献在于解决了多乐器指法谱数据稀缺与生成模型训练数据不足的长期困境。此前,音乐信息检索(MIR)领域的大多数符号数据集以 MIDI 或 MusicXML 为主,缺乏对吉他演奏技法(如推弦、滑音、闷音)和指法位置的显式记录,导致自动作曲模型难以生成符合乐器物理特性的乐谱。DadaGP 通过提供包含指法、弦位、品位的 token 化表示,使研究者能够训练出具备演奏技法意识的生成模型,显著提升了生成音乐在乐器表现力上的真实感与多样性。这一突破推动了符号音乐生成从单声道钢琴作品向多乐器、多风格乐谱的跨越。
衍生相关工作
DadaGP 的发布催生了一系列具有影响力的衍生研究工作。在符号音乐生成方面,研究者借鉴其 token 化方案,开发了基于 Transformer-XL 的多乐器生成模型,实现了对摇滚、金属等风格的高质量乐谱创作。在音乐风格迁移领域,DadaGP 的 genre 标签被用于训练风格分类器,进而实现不同艺术家或音乐类型之间的指法谱风格转换。此外,该数据集还被用于吉他-贝斯自动转录任务的合成数据生成,通过将指法谱渲染为音频以预训练转录模型,显著提升了真实录音环境下的音符检测精度。这些工作共同拓展了指法谱数据在 MIR 研究中的方法论边界。
以上内容由遇见数据集搜集并总结生成



