five

melodyhub|音乐数据数据集|机器学习数据集

收藏
huggingface2024-07-02 更新2024-12-12 收录
音乐数据
机器学习
下载链接:
https://huggingface.co/datasets/sander-wood/melodyhub
下载链接
链接失效反馈
资源简介:
MelodyHub数据集是一个精心策划的数据集,主要用于训练MelodyT5模型。该数据集包含261,900个旋律,采用ABC记谱法格式,并从公共乐谱数据集和在线平台收集。数据集包括民间歌曲和其他无版权音乐乐谱,确保了传统和时代的多样性。数据集涵盖七个以旋律为中心的任务:分类、生成、和声、旋律化、分割、转录和变奏。这些任务产生了超过一百万个任务实例,为符号音乐处理提供了一个全面的资源。每个任务都以乐谱到乐谱的格式呈现,输入数据中包含任务标识符。MelodyHub的严格筛选过程确保了高质量、一致的数据,适合开发和评估符号音乐模型。
创建时间:
2024-07-02
原始信息汇总

数据集概述

名称: MelodyHub

许可证: MIT

任务类别: 文本生成

大小类别: 1M<n<10M

标签: 音乐

数据集摘要: MelodyHub 是一个精心策划的数据集,主要用于训练 MelodyT5。该数据集包含 261,900 首以 ABC 记谱法格式编排的旋律,来源于公共乐谱数据集和在线平台。它包括民歌和其他无版权音乐作品,确保了传统和时代的多样性。数据集涵盖七个以旋律为中心的任务:分类、生成、和声、旋律化、分割、转录和变奏。这些任务产生了超过一百万个任务实例,为符号音乐处理提供了全面的资源。每个任务都以乐谱到乐谱的格式呈现,输入数据中包含任务标识符。MelodyHub 的严格筛选过程确保了高质量、一致的数据,适合开发和评估符号音乐模型。

ABC 记谱法

ABC 记谱法是一种基于 ASCII 的纯文本音乐记谱系统,常用于转录传统音乐和在线分享乐谱。它提供了一种简单而简洁的方式来表示音符、节奏、和弦等音乐元素。

旋律筛选

MelodyHub 数据集通过公开可用的乐谱数据集和在线平台进行筛选,原始格式包括 ABC 记谱法、MusicXML 和 Humdrum。数据筛选过程包括以下步骤:

  1. 排除版权条目: 排除带有明确版权标识(如“copyright”或“©”符号)的条目。

  2. 格式标准化: 所有数据首先转换为 MusicXML 格式进行标准化,然后转换为 ABC 记谱法,以确保数据集中的格式一致。

  3. 按音乐复杂度过滤: 排除少于八小节的旋律,以保持足够的复杂度和音乐丰富性。

  4. 去除非音乐内容: 删除歌词和非音乐内容(如转录者的联系信息和 URL 链接),专注于音乐记谱。

  5. 修剪静音小节: 移除每个作品开头和结尾的完全静音小节,以精简音乐内容。

  6. 验证小节线: 每个作品都经过验证是否包含最终小节线。如果缺失,则添加小节线以确保完整性和一致性。

  7. 去重: 进行去重处理,以防止重复并确保每个旋律在数据集中是唯一的。

通过这些步骤,MelodyHub 数据集形成了一个包含 261,900 首旋律的大量集合,具有统一的格式,适合训练和评估符号音乐模型如 MelodyT5。

任务定义

在旋律数据筛选之后,MelodyHub 数据集被分为七个任务,以乐谱到乐谱的格式呈现,包含输入-输出对。在 MelodyHub 中,每个输入数据都包含一个任务标识符(例如 %%harmonization),用于指定预期的任务。以下是这些任务的定义:

  • 分类: 选择包含音乐相关元数据(如标题、作曲家和地理起源)的旋律。输入数据包含这些属性的信息字段,而特定信息被移除且顺序被打乱。输出包含相应的元数据,但不包含音乐乐谱。

  • 生成: 输入仅包含任务标识符(即 %%generation),输出包含完整的音乐乐谱。遵循 TunesFormer,所有旋律都附加了控制代码作为信息字段,以表示音乐结构信息。这些代码,即 S:B:E:,分别表示乐曲的段数、每段的小节数以及每对段之间的编辑距离相似度。

  • 和声: 该任务涉及包含和弦符号的旋律。和弦符号从输入中移除,而原始数据作为输出保留。输出附加一个表示编辑距离相似度的信息字段(E:),指示输入和输出之间的相似度,范围从 0 到 10(完全不匹配到完全匹配)。较低的相似度值表明需要更多的和弦符号。

  • 旋律化: 与和声相反,该任务操作相反,也使用包含和弦符号的旋律。原始乐谱中的音符被替换为休止符,相邻的休止符持续时间被合并。结果乐谱,包含休止符和和弦符号,作为输入。与和声类似,输出开头添加一个 E: 字段,较低的值有助于生成更复杂的旋律。

  • 分割: 选择包含大括号表示分割或来自 JSB 合唱团数据集(四部分作品)的旋律,包含停顿标记。这些标记被转换为呼吸标记。输入数据省略所有呼吸标记,而输出在开头添加一个 E: 字段,以帮助生成呼吸标记,较低的值意味着需要添加更多的呼吸标记。

  • 转录: ABC 记谱法首先转换为 MIDI,然后重新转换回 ABC。从 MIDI 转换得到的 ABC 丢失了大量的乐谱信息,如区分等音和缺失的音乐装饰(如颤音)。MIDI 转换的 ABC 作为输入,而原始 ABC 附加一个 E: 字段作为输出。较低的 E: 值表示转录和输入乐谱之间的差异较大,特别是由于缺少重复符号。

  • 变奏: 该任务集中于 The Session 中的数据,其中每个 ABC 记谱法文件可能包含同一乐曲的多个变体。选择包含两个或更多变体的乐曲,每对变体都用作输入和输出。输出以一个 E: 字段开始,表示输入和输出乐谱之间的差异程度,较低的值表示乐谱之间有显著的变体。

这些任务总共包含 1,067,747 个实例,涵盖了音乐信息检索(MIR)中的分析到生成挑战。这个全面的数据集为开发和评估符号音乐模型如 MelodyT5 提供了宝贵的资源。

AI搜集汇总
数据集介绍
main_image_url
构建方式
MelodyHub数据集的构建过程体现了对音乐数据的高标准要求。数据集从公开的乐谱数据集和在线平台中收集了261,900首旋律,采用ABC记谱法进行格式化。为确保数据的多样性和质量,构建过程中排除了受版权保护的内容,并通过格式标准化、音乐复杂性过滤、非音乐内容去除、休止小节修剪、小节线验证以及去重等步骤,最终形成了一个高质量且一致的旋律集合。这一严谨的构建流程为符号音乐处理模型的训练和评估提供了坚实的基础。
使用方法
MelodyHub数据集的使用方法灵活多样,适用于多种符号音乐处理任务。用户可以通过输入任务标识符来指定具体的任务类型,如生成、和声化或变奏等。每项任务的输入输出均以ABC记谱法呈现,便于用户直接进行音乐生成或分析。此外,数据集中的控制代码和信息字段(如`E:`字段)为模型提供了额外的结构信息和相似度指标,有助于提升任务的准确性和生成质量。用户还可以结合在线ABC播放器或EasyABC等工具,进一步探索和编辑数据集中的旋律内容。
背景与挑战
背景概述
MelodyHub数据集是一个专为训练MelodyT5模型而精心策划的数据集,包含261,900首以ABC记谱法格式化的旋律,源自公共乐谱数据集和在线平台。该数据集涵盖了民谣及其他无版权音乐作品,确保了跨传统和时代的多样性。MelodyHub包含七项旋律中心任务,如编目、生成、和声化、旋律化、分段、转录和变奏,生成了超过一百万的任务实例,为符号音乐处理提供了全面的资源。该数据集由上海交通大学的研究团队于2024年创建,旨在推动符号音乐处理领域的研究与应用。
当前挑战
MelodyHub数据集在构建过程中面临多重挑战。首先,数据来源的多样性和格式不统一要求进行复杂的格式标准化处理,以确保数据的一致性。其次,排除受版权保护的内容和去除非音乐元素(如歌词和URL链接)增加了数据清洗的难度。此外,确保旋律的复杂性和独特性,如过滤少于八小节的旋律和去重,进一步提升了数据质量控制的复杂性。最后,将数据集划分为七项任务并生成相应的输入输出对,要求精细的任务定义和数据处理,以确保每项任务的准确性和实用性。这些挑战共同构成了MelodyHub数据集构建的核心难点。
常用场景
经典使用场景
MelodyHub数据集在音乐信息检索(MIR)领域具有广泛的应用,尤其是在符号音乐处理任务中。该数据集通过提供261,900首以ABC记谱法格式化的旋律,涵盖了从传统民谣到非版权音乐作品的多样性。其七种核心任务——包括编目、生成、和声化、旋律化、分段、转录和变奏——为研究人员提供了一个全面的实验平台,用于开发和评估符号音乐模型。这些任务以乐谱到乐谱的形式呈现,确保了数据的一致性和高质量,使其成为训练和测试音乐生成模型的理想选择。
解决学术问题
MelodyHub数据集解决了符号音乐处理中的多个关键学术问题。首先,它通过提供多样化的旋律数据,支持了音乐生成模型的训练,解决了传统音乐生成中数据稀缺的问题。其次,其任务设计涵盖了从音乐分析到生成的广泛领域,为研究人员提供了丰富的实验场景,能够有效评估模型在不同任务中的表现。此外,数据集的高质量和一致性确保了研究结果的可靠性和可重复性,推动了符号音乐处理领域的进一步发展。
实际应用
在实际应用中,MelodyHub数据集为音乐生成、和声分析和音乐转录等任务提供了强大的支持。例如,音乐生成模型可以利用该数据集生成具有多样性和复杂性的旋律,应用于音乐创作和自动作曲领域。和声分析任务则可以通过数据集中的和声化任务,帮助音乐家快速生成和声伴奏。此外,转录任务能够将MIDI格式的音乐转换为ABC记谱法,为音乐教育和研究提供了便利。这些应用展示了MelodyHub在音乐技术领域的广泛潜力。
数据集最近研究
最新研究方向
在音乐信息检索(MIR)领域,MelodyHub数据集的最新研究方向聚焦于符号音乐处理的多样性与复杂性。该数据集通过包含261,900首旋律,涵盖了从传统民谣到非版权音乐作品的广泛音乐风格,为符号音乐模型的训练与评估提供了丰富的资源。当前研究热点包括旋律生成、和声化、旋律化、分段、转录和变奏等七项任务,这些任务不仅推动了音乐生成技术的发展,还为音乐分析与理解提供了新的视角。特别是MelodyT5模型的引入,进一步提升了符号音乐处理的统一性与效率,为音乐信息检索领域的创新奠定了坚实基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录