melodyhub|音乐数据数据集|机器学习数据集
收藏数据集概述
名称: MelodyHub
许可证: MIT
任务类别: 文本生成
大小类别: 1M<n<10M
标签: 音乐
数据集摘要: MelodyHub 是一个精心策划的数据集,主要用于训练 MelodyT5。该数据集包含 261,900 首以 ABC 记谱法格式编排的旋律,来源于公共乐谱数据集和在线平台。它包括民歌和其他无版权音乐作品,确保了传统和时代的多样性。数据集涵盖七个以旋律为中心的任务:分类、生成、和声、旋律化、分割、转录和变奏。这些任务产生了超过一百万个任务实例,为符号音乐处理提供了全面的资源。每个任务都以乐谱到乐谱的格式呈现,输入数据中包含任务标识符。MelodyHub 的严格筛选过程确保了高质量、一致的数据,适合开发和评估符号音乐模型。
ABC 记谱法
ABC 记谱法是一种基于 ASCII 的纯文本音乐记谱系统,常用于转录传统音乐和在线分享乐谱。它提供了一种简单而简洁的方式来表示音符、节奏、和弦等音乐元素。
旋律筛选
MelodyHub 数据集通过公开可用的乐谱数据集和在线平台进行筛选,原始格式包括 ABC 记谱法、MusicXML 和 Humdrum。数据筛选过程包括以下步骤:
-
排除版权条目: 排除带有明确版权标识(如“copyright”或“©”符号)的条目。
-
格式标准化: 所有数据首先转换为 MusicXML 格式进行标准化,然后转换为 ABC 记谱法,以确保数据集中的格式一致。
-
按音乐复杂度过滤: 排除少于八小节的旋律,以保持足够的复杂度和音乐丰富性。
-
去除非音乐内容: 删除歌词和非音乐内容(如转录者的联系信息和 URL 链接),专注于音乐记谱。
-
修剪静音小节: 移除每个作品开头和结尾的完全静音小节,以精简音乐内容。
-
验证小节线: 每个作品都经过验证是否包含最终小节线。如果缺失,则添加小节线以确保完整性和一致性。
-
去重: 进行去重处理,以防止重复并确保每个旋律在数据集中是唯一的。
通过这些步骤,MelodyHub 数据集形成了一个包含 261,900 首旋律的大量集合,具有统一的格式,适合训练和评估符号音乐模型如 MelodyT5。
任务定义
在旋律数据筛选之后,MelodyHub 数据集被分为七个任务,以乐谱到乐谱的格式呈现,包含输入-输出对。在 MelodyHub 中,每个输入数据都包含一个任务标识符(例如 %%harmonization
),用于指定预期的任务。以下是这些任务的定义:
-
分类: 选择包含音乐相关元数据(如标题、作曲家和地理起源)的旋律。输入数据包含这些属性的信息字段,而特定信息被移除且顺序被打乱。输出包含相应的元数据,但不包含音乐乐谱。
-
生成: 输入仅包含任务标识符(即
%%generation
),输出包含完整的音乐乐谱。遵循 TunesFormer,所有旋律都附加了控制代码作为信息字段,以表示音乐结构信息。这些代码,即S:
、B:
和E:
,分别表示乐曲的段数、每段的小节数以及每对段之间的编辑距离相似度。 -
和声: 该任务涉及包含和弦符号的旋律。和弦符号从输入中移除,而原始数据作为输出保留。输出附加一个表示编辑距离相似度的信息字段(
E:
),指示输入和输出之间的相似度,范围从 0 到 10(完全不匹配到完全匹配)。较低的相似度值表明需要更多的和弦符号。 -
旋律化: 与和声相反,该任务操作相反,也使用包含和弦符号的旋律。原始乐谱中的音符被替换为休止符,相邻的休止符持续时间被合并。结果乐谱,包含休止符和和弦符号,作为输入。与和声类似,输出开头添加一个
E:
字段,较低的值有助于生成更复杂的旋律。 -
分割: 选择包含大括号表示分割或来自 JSB 合唱团数据集(四部分作品)的旋律,包含停顿标记。这些标记被转换为呼吸标记。输入数据省略所有呼吸标记,而输出在开头添加一个
E:
字段,以帮助生成呼吸标记,较低的值意味着需要添加更多的呼吸标记。 -
转录: ABC 记谱法首先转换为 MIDI,然后重新转换回 ABC。从 MIDI 转换得到的 ABC 丢失了大量的乐谱信息,如区分等音和缺失的音乐装饰(如颤音)。MIDI 转换的 ABC 作为输入,而原始 ABC 附加一个
E:
字段作为输出。较低的E:
值表示转录和输入乐谱之间的差异较大,特别是由于缺少重复符号。 -
变奏: 该任务集中于 The Session 中的数据,其中每个 ABC 记谱法文件可能包含同一乐曲的多个变体。选择包含两个或更多变体的乐曲,每对变体都用作输入和输出。输出以一个
E:
字段开始,表示输入和输出乐谱之间的差异程度,较低的值表示乐谱之间有显著的变体。
这些任务总共包含 1,067,747 个实例,涵盖了音乐信息检索(MIR)中的分析到生成挑战。这个全面的数据集为开发和评估符号音乐模型如 MelodyT5 提供了宝贵的资源。

典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
豆瓣数据集
该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录