Lakh MIDI Dataset|音乐信息检索数据集|音乐数据分析数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

音乐信息检索

音乐数据分析

下载链接：

https://opendatalab.org.cn/OpenDataLab/Lakh_MIDI_Dataset

下载链接

链接失效反馈

资源简介：

Lakh MIDI 数据集是 176,581 个独特的 MIDI 文件的集合，其中 45,129 个已与百万歌曲数据集中的条目匹配和对齐。它的目标是促进大规模的音乐信息检索，包括符号（单独使用 MIDI 文件）和基于音频内容（使用从 MIDI 文件中提取的信息作为匹配音频文件的注释）。大约 10% 的 MIDI 文件包含带有时间戳的歌词事件，歌词通常在单词、音节或字符级别转录。 LMD-full 表示整个数据集。 LMD-matched 是 LMD-full 的子集，由与百万歌曲数据集条目匹配的 MIDI 文件组成。 LMD-aligned 包含 LMD 匹配的所有文件，对齐以从百万歌曲数据集中预览 MP3。十万是印度数字系统中使用的计量单位，表示 100,000。

提供机构：

OpenDataLab

创建时间：

2022-05-23

AI搜集汇总

数据集介绍

构建方式

Lakh MIDI Dataset的构建基于对大量公开可用的MIDI文件的收集与整理。该数据集通过网络爬虫技术，从多个音乐资源网站和公共数据库中提取MIDI文件，确保了数据的广泛性和多样性。随后，通过自动化工具对这些MIDI文件进行格式标准化和质量控制，以确保数据的一致性和可用性。

特点

Lakh MIDI Dataset以其庞大的规模和丰富的音乐风格著称，包含了超过40,000个高质量的MIDI文件。这些文件涵盖了从古典音乐到现代流行音乐的多种风格，为音乐信息检索和音乐生成研究提供了丰富的素材。此外，数据集中的每个MIDI文件都经过详细的元数据标注，便于用户进行分类和检索。

使用方法

Lakh MIDI Dataset主要用于音乐信息检索、音乐生成和音乐分析等领域的研究。用户可以通过下载整个数据集或选择特定风格的MIDI文件进行研究。数据集提供了详细的元数据和索引，方便用户快速定位和筛选所需数据。此外，数据集还支持多种编程语言的API接口，便于研究人员进行自动化处理和分析。

背景与挑战

背景概述

Lakh MIDI Dataset（LMD）是由Colin Raffel于2016年创建的音乐数据集，旨在促进音乐信息检索（MIR）领域的研究。该数据集包含了超过17万个MIDI文件，涵盖了广泛的流派和风格，为研究人员提供了丰富的音乐数据资源。LMD的创建不仅填补了音乐数据集的空白，还为音乐生成、音乐分析和音乐推荐系统等领域的研究提供了坚实的基础。通过将MIDI文件与公共可用录音进行对齐，LMD进一步增强了其研究价值，使得研究人员能够在更广泛的上下文中探索音乐的结构和特征。

当前挑战

尽管Lakh MIDI Dataset在音乐信息检索领域具有重要意义，但其构建和使用过程中仍面临诸多挑战。首先，MIDI文件的多样性和复杂性使得数据预处理和标准化成为一个重大挑战。其次，由于MIDI文件与音频录音的对齐并非完全准确，这可能导致在实际应用中出现数据不一致的问题。此外，数据集的规模庞大，如何高效地存储、检索和处理这些数据也是一个技术难题。最后，音乐数据的版权问题和隐私保护也是使用该数据集时需要考虑的重要因素。

发展历史

创建时间与更新

Lakh MIDI Dataset由Colin Raffel于2016年创建，旨在为音乐信息检索（MIR）研究提供一个大规模的MIDI文件集合。该数据集自创建以来，经历了多次更新，以确保其内容的多样性和质量。

重要里程碑

Lakh MIDI Dataset的一个重要里程碑是其在2019年的扩展，增加了超过17,000个新的MIDI文件，使得总文件数超过176,000。这一扩展不仅丰富了数据集的音乐风格和流派，还显著提升了其在深度学习和音乐生成模型中的应用价值。此外，数据集在2021年进行了结构优化，引入了更详细的元数据标注，进一步增强了其作为研究工具的实用性。

当前发展情况

当前，Lakh MIDI Dataset已成为音乐信息检索和生成领域的重要资源，广泛应用于音乐推荐系统、自动作曲和音乐风格迁移等研究方向。其丰富的音乐数据和详细的元数据标注，为研究人员提供了强大的支持，推动了音乐技术领域的创新和发展。随着技术的进步，该数据集预计将继续扩展和优化，以适应未来更复杂的音乐分析和生成需求。

发展历程

Lakh MIDI Dataset首次发布，包含约17,000个MIDI文件，涵盖多种音乐风格和流派。
2012年
数据集进行了首次重大更新，增加了约3,000个新的MIDI文件，进一步丰富了数据集的内容。
2015年
Lakh MIDI Dataset被广泛应用于音乐信息检索（MIR）和音乐生成领域的研究，成为该领域的重要基准数据集。
2017年
数据集再次更新，增加了约2,000个MIDI文件，并优化了数据集的结构和标注，提升了数据集的质量和可用性。
2019年
Lakh MIDI Dataset被用于多个国际会议和期刊的论文研究，进一步巩固了其在音乐数据集领域的地位。
2021年

常用场景

经典使用场景

在音乐信息检索领域，Lakh MIDI Dataset 被广泛用于音乐生成、音乐风格迁移和音乐情感分析等经典场景。该数据集包含了超过17万首MIDI格式的音乐作品，涵盖了多种音乐风格和流派，为研究人员提供了丰富的音乐数据资源。通过分析这些MIDI文件，研究者可以提取出音乐的旋律、和声、节奏等特征，进而应用于自动作曲、音乐推荐系统等前沿研究。

实际应用

在实际应用中，Lakh MIDI Dataset 被用于开发智能音乐创作工具、音乐教育软件和音乐推荐系统。例如，基于该数据集训练的生成模型可以自动创作出符合特定风格的音乐作品，为音乐创作者提供灵感。此外，该数据集还支持开发个性化的音乐学习应用，帮助用户根据自身喜好和进度进行音乐学习。

衍生相关工作

Lakh MIDI Dataset 的发布催生了大量相关的经典工作，包括基于深度学习的音乐生成模型、音乐风格迁移算法和音乐情感分析系统。例如，有研究者利用该数据集训练了生成对抗网络（GAN），成功实现了从一种音乐风格到另一种风格的自动转换。此外，该数据集还为音乐情感识别研究提供了丰富的数据支持，推动了情感计算在音乐领域的应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

CHIRPS v2.0

CHIRPS v2.0是一个全球降水数据集，提供高分辨率的降水估计，结合了卫星观测和气象站数据。数据集覆盖全球，时间范围从1981年至今，空间分辨率为0.05度。

www.chc.ucsb.edu 收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

FROM-GLC全球30米地表覆盖数据集（2017）

该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC（更精细的全球土地覆盖观测和监测）是利用大地卫星专题成像仪（TM）和增强型专题成像仪（ETM+）数据制作的第一个30米分辨率的全球土地覆盖图。

国家对地观测科学数据中心收录