Lead-Sheet-Dataset
收藏github2024-03-01 更新2024-05-31 收录
下载链接:
https://github.com/wayne391/lead-sheet-dataset
下载链接
链接失效反馈官方服务:
资源简介:
包含三种不同格式的领谱数据集,源自从Theorytab,用户可以轻松扩展此数据集。数据集包含事件和钢琴卷两种常见格式,用于象征性领域研究。
This dataset comprises lead sheet data in three distinct formats, sourced from Theorytab, allowing users to effortlessly expand the dataset. It includes two prevalent formats, namely events and piano rolls, tailored for symbolic domain research.
创建时间:
2018-07-26
原始信息汇总
数据集概述
数据集名称
- Lead-Sheet-Dataset
数据集内容
- 包含三种不同格式的领谱集合。
数据集更新
- 代码更新:2018/10/21
- 样本数据集更新:2018/8/1
数据集来源
- 原始数据集来源:[Theorytab]
- 数据集大小:4.9 G
- MIDI文件链接:Link,大小:11 MB
数据集格式
- 事件格式:
- 列表形式的事件元组,格式为
(tag, event_on, event_off)或(tag, event_on, duration)
- 列表形式的事件元组,格式为
- 钢琴卷格式:
- 大小为
timesteps x pitches的张量
- 大小为
数据集结构
- 事件文件夹:
- roman_key: 罗马数字,原始键
- roman_nokey: 罗马数字,C键
- symbol_key: 符号,原始键
- symbol_nokey: 符号,C键
- 钢琴卷文件夹:
- key: 原始键(含MIDI)
- no key: C键(含MIDI)
- 所有钢琴卷的节拍分辨率为24
数据集样本
- 样本钢琴卷:
- 示例图片显示了Hey Jude合唱部分的钢琴卷。
数据集用途
- 仅限于学术目的。
数据集扩展
- 用户可以通过整合其他资源轻松扩展此数据集。
数据集创建方法
- 使用
theorytab_crawler.py和main.py脚本生成数据,数据放置于datasets文件夹中。
数据集规模
- 艺术家数量:4956
- 歌曲数量:11380
- 成功解析的文件数量:18843(共18986节)
搜集汇总
数据集介绍

构建方式
Lead-Sheet-Dataset的构建过程基于Theorytab平台,通过爬虫技术从该平台获取原始数据,并经过一系列转换生成符号化音乐表示。数据集包含两种主要格式:事件(event)和钢琴卷帘(pianoroll)。事件格式通过元组(tag, event_on, event_off)或(tag, event_on, duration)表示音乐事件,而钢琴卷帘则通过时间步长与音高的张量形式呈现。此外,数据集还提供了罗马数字分析和和弦符号两种和弦表示方式,用户可根据需求选择使用。构建过程中,通过自定义函数将符号化表示转换为MIDI文件,并生成相应的钢琴卷帘图。
使用方法
使用Lead-Sheet-Dataset时,用户可通过提供的Python脚本从Theorytab平台爬取数据,并生成符号化表示。数据集包含的事件和钢琴卷帘格式可直接用于音乐分析任务,用户还可通过自定义函数将其他符号化资源转换为钢琴卷帘格式。数据集提供了详细的示例代码和测试笔记本,便于用户进行数据验证和功能测试。此外,用户可根据研究需求选择不同的和弦表示方式,并利用生成的MIDI文件进行音乐合成或进一步分析。数据集的灵活性和易用性使其适用于广泛的音乐研究场景。
背景与挑战
背景概述
Lead-Sheet-Dataset是一个专注于音乐符号分析的数据集,由Yin-Cheng Yeh等研究人员于2021年创建,并发表在《Journal of New Music Research》上。该数据集包含了来自Theorytab的4956位艺术家的11380首歌曲,成功解析了18843个文件,涵盖了18986个音乐片段。数据集以三种不同格式呈现,包括事件(event)和钢琴卷帘(pianoroll),旨在支持自动旋律和声化研究。通过提供罗马分析和和弦符号两种表示方式,该数据集为音乐理论研究和流行音乐分析提供了丰富的资源。其核心研究问题在于如何通过符号化表示实现音乐的自动化处理与分析,推动了音乐信息检索和计算音乐学领域的发展。
当前挑战
Lead-Sheet-Dataset在解决音乐符号化表示和自动化分析方面面临多重挑战。首先,音乐符号的多样性和复杂性使得数据集的构建过程需要精确的解析和转换,尤其是在处理罗马分析和和弦符号时,确保数据的一致性和准确性成为关键问题。其次,钢琴卷帘的生成涉及音乐编排的艺术性,如何在自动化过程中保留音乐的情感表达和艺术价值是一个技术难点。此外,数据集的扩展性也面临挑战,尽管框架支持用户整合其他资源,但不同来源的符号格式差异可能导致转换过程中的数据丢失或错误。最后,数据集的大规模性和高分辨率要求对存储和计算资源提出了较高需求,进一步增加了数据处理和分析的难度。
常用场景
经典使用场景
Lead-Sheet-Dataset在音乐信息检索和自动作曲领域具有广泛的应用。该数据集以事件和钢琴卷帘两种格式存储音乐信息,特别适用于符号域的音乐分析。研究者可以通过该数据集进行和弦分析、旋律生成以及和声编排等任务,尤其在流行音乐和爵士乐的研究中,该数据集提供了丰富的和弦标注和罗马数字分析,为音乐理论研究和算法开发提供了坚实的基础。
解决学术问题
Lead-Sheet-Dataset解决了音乐信息检索中符号表示和自动作曲中的和声生成问题。通过提供多种格式的音乐数据,研究者可以更便捷地进行和弦分析、旋律生成以及和声编排等研究。该数据集还支持罗马数字分析和和弦符号表示,为音乐理论研究和算法开发提供了丰富的实验数据,推动了音乐信息检索和自动作曲领域的发展。
实际应用
在实际应用中,Lead-Sheet-Dataset被广泛用于音乐教育、自动作曲软件和音乐推荐系统。音乐教育领域,该数据集可以帮助学生理解和弦进行和和声编排;自动作曲软件中,研究者可以利用该数据集生成新的旋律和和声;音乐推荐系统中,该数据集可以用于分析用户偏好,提供个性化的音乐推荐。
数据集最近研究
最新研究方向
在音乐信息检索领域,Lead-Sheet-Dataset作为一份包含多种格式的乐谱数据集,近年来在自动旋律和声生成研究中展现出重要价值。该数据集以事件和钢琴卷帘两种符号化表示形式,为研究者提供了丰富的和弦标注信息,尤其是在罗马数字分析和流行音乐和弦符号分析方面。随着深度学习技术的进步,研究者们正致力于利用该数据集开发更加智能的和声生成模型,以提升音乐创作的自动化水平。此外,该数据集的可扩展性使得研究者能够整合其他资源,进一步推动音乐理论分析和计算音乐学的发展。这些研究不仅深化了对音乐结构的理解,也为音乐教育和创作工具的开发提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



