Lead-Sheet-Dataset
收藏github2024-03-01 更新2024-05-31 收录
下载链接:
https://github.com/wayne391/Lead-Sheet-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
包含三种不同格式的领谱数据集,用于符号域研究,支持事件和钢琴卷两种音乐表示格式。数据集来源于Theorytab,用户可以扩展此数据集,适用于学术目的。
A lead sheet dataset with three distinct formats is designed for symbolic domain research, supporting two musical representation formats: event-based and piano roll. Sourced from Theorytab, this dataset may be extended by users for academic applications.
创建时间:
2018-07-26
原始信息汇总
数据集概述
数据集名称
Lead-Sheet-Dataset
数据集内容
包含三种不同格式的领谱(Lead Sheet)数据。
数据集更新
- 代码更新:2018/10/21
- 样本数据集更新:2018/8/1
数据集来源
数据集格式
-
事件格式:
- 包含四种子格式:
- roman_key: 罗马数字,原始调
- roman_nokey: 罗马数字,C调
- symbol_key: 符号,原始调
- symbol_nokey: 符号,C调
- 包含四种子格式:
-
钢琴卷格式:
- 包含两种子格式:
- 原始调(带MIDI)
- C调(带MIDI)
- 所有钢琴卷的节拍分辨率为24。
- 包含两种子格式:
数据集用途
仅限于学术目的。
数据集扩展
用户可以通过整合其他资源来扩展此数据集。
数据集创建方法
- 使用
theorytab_crawler.py和main.py脚本生成数据。 - 生成的数据放置在datasets文件夹中。
数据集规模
- 包含4956位艺术家的作品
- 包含11380首歌曲
- 成功解析的文件数为18843,分布在18986个部分中。
搜集汇总
数据集介绍

构建方式
Lead-Sheet-Dataset的构建过程主要依赖于Theorytab平台的数据源,通过爬虫技术从该平台获取原始音乐数据。随后,利用Python脚本对数据进行解析和转换,生成两种常见的音乐表示格式:事件(Event)和钢琴卷帘(Pianoroll)。事件格式以元组形式记录音乐事件,而钢琴卷帘则以张量形式表示音乐的时序和音高信息。此外,数据集还提供了罗马数字分析和和弦符号两种和弦表示方式,便于不同研究需求的使用。最终生成的数据集包含4956位艺术家的11380首歌曲,成功解析的文件数量达到18843个。
特点
Lead-Sheet-Dataset的特点在于其多样化的数据表示形式和丰富的音乐资源。数据集提供了事件和钢琴卷帘两种格式,分别适用于不同的音乐分析任务。事件格式以简洁的元组形式记录音乐事件,便于时序分析;而钢琴卷帘则以张量形式呈现音乐的时序和音高信息,适合深度学习模型的输入。此外,数据集还支持罗马数字分析和和弦符号两种和弦表示方式,满足了音乐理论和流行音乐研究的不同需求。数据集涵盖了4956位艺术家的11380首歌曲,具有广泛的音乐风格和类型,为音乐信息检索和自动作曲等研究提供了丰富的素材。
使用方法
使用Lead-Sheet-Dataset时,用户可以通过提供的Python脚本进行数据生成和转换。首先,运行theorytab_crawler.py脚本从Theorytab平台爬取原始数据,随后通过main.py脚本进行数据解析和格式转换,生成的事件和钢琴卷帘数据将存储在指定的文件夹中。用户还可以使用to_pianoroll.py脚本将其他符号格式的音乐数据转换为钢琴卷帘格式,以便进一步分析。数据集提供了详细的示例代码和测试笔记本,用户可以通过这些工具对数据进行验证和调试。此外,数据集支持自定义函数,用户可以根据研究需求调整数据生成和转换的规则,以获得更符合特定任务的数据格式。
背景与挑战
背景概述
Lead-Sheet-Dataset是一个专注于音乐符号分析的数据集,由Yin-Cheng Yeh等研究人员于2021年创建,并发表在《Journal of New Music Research》上。该数据集包含了来自4956位艺术家的11380首歌曲,成功解析了18843个文件,涵盖了18986个音乐片段。其主要研究问题集中在自动旋律和声化,特别是通过三和弦进行和声分析。数据集以三种不同格式呈现,包括事件和钢琴卷帘,旨在为音乐理论研究和流行音乐分析提供丰富的符号化表示。该数据集对音乐信息检索、自动作曲和和声分析等领域具有重要影响力,推动了符号化音乐数据的标准化和广泛应用。
当前挑战
Lead-Sheet-Dataset在解决音乐符号分析问题时面临多重挑战。首先,音乐符号的多样性使得统一表示变得复杂,特别是在和弦标注上,罗马数字分析和符号化表示之间的转换需要精确的处理。其次,数据集构建过程中,从Theorytab等资源爬取和解析数据时,需处理大量异构格式,确保数据的完整性和一致性。此外,将符号化表示转换为钢琴卷帘时,和弦的编排和音高处理需要艺术性和技术性的平衡,例如在处理九和弦时省略五音等策略。这些挑战不仅考验了数据集的构建技术,也为后续研究提供了改进和扩展的空间。
常用场景
经典使用场景
Lead-Sheet-Dataset在音乐信息检索和自动作曲领域具有广泛的应用。该数据集以事件和钢琴卷两种格式呈现音乐符号,为研究者提供了丰富的和弦和旋律分析工具。通过罗马分析和和弦符号两种方式,研究者能够深入探讨音乐的和谐结构,进而推动自动和声生成算法的开发。
解决学术问题
该数据集解决了音乐理论研究和计算音乐学中的多个关键问题。通过提供多种格式的音乐表示,研究者能够更精确地分析音乐的和弦进程和旋律结构。此外,数据集中的罗马分析和和弦符号转换功能,为音乐理论教育和自动和声生成提供了重要的数据支持,推动了相关领域的研究进展。
衍生相关工作
基于Lead-Sheet-Dataset,研究者开发了多种自动和声生成算法和音乐分析工具。例如,Yin-Cheng Yeh等人利用该数据集进行了自动旋律和声生成的比较研究,发表在《Journal of New Music Research》上。此外,该数据集还被用于开发音乐信息检索系统,推动了音乐计算领域的技术进步。
以上内容由遇见数据集搜集并总结生成



