Discover-MIDI-Dataset

Hugging Face2025-12-24 更新2025-12-25 收录

下载链接：

https://huggingface.co/datasets/projectlosangeles/Discover-MIDI-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Discover MIDI Dataset 是一个大规模、高质量的符号音乐数据集，专为音乐信息检索（MIR）、创意探索和符号音乐AI训练而设计。它包含超过674万首经过去重和标准化的MIDI文件，每首文件都经过MIDI规范验证和完整性检查，确保数据质量。数据集提供了丰富的结构化元数据，包括特征计数、压缩特征矩阵、文件列表、流派标签、艺术家/标题识别、卡拉OK和歌词匹配、单音旋律摘要、音高-音色计数以及详细的质量指标。此外，数据集还配备了GPU加速的搜索和过滤工具，支持高效的相似性搜索和分析。数据集适用于符号音乐模型的训练与评估、大规模MIR研究、音乐创作者的主题和循环发现，以及构建检索或推荐系统。

创建时间：

2025-12-20

原始信息汇总

Discover MIDI Dataset 数据集概述

基本信息

数据集名称: Discover MIDI Dataset (discovermidi)
发布者: Project Los Angeles / Tegridy Code
发布日期: 2025年
许可证: CC-BY-NC-SA-4.0
语言: 英语
标签: MIDI, music, music discovery, MIDI discovery, MIDI search, music search, music ai, MIR, MIDI dataset, music dataset
数据规模: 1M < n < 10M

数据集简介

Discover MIDI Dataset 是一个大规模、生产就绪的符号音乐集合，专为音乐信息检索（MIR）、音乐发现和符号音乐AI而设计。它旨在为研究人员和创作者提供大规模查找、分析和原型制作MIDI的能力。

核心规模与质量

数据量: 包含超过 674万 个唯一、去重且标准化的MIDI文件。
质量控制: 每个文件均根据MIDI规范进行验证和完整性检查。
去重流程: 采用两阶段去重管道（MD5哈希和音高/和弦计数比较），确保数据唯一性。

关键特性

丰富的元数据: 提供特征计数、压缩特征矩阵、文件列表、流派标签、艺术家/标题识别、卡拉OK和歌词匹配、单音旋律摘要、音高-音色计数以及详细的质量指标。
预计算特征: 特征索引范围覆盖 [0,1089)，涵盖起始时间差、持续时间、乐器/音色、乐器和鼓的音高、321种和弦的和声词汇以及力度。特征矩阵（961个特征，不含力度）以压缩的NumPy数组形式存储。
高性能搜索: 提供GPU加速的搜索和过滤引擎，针对float16性能优化。在合适的GPU硬件（建议≥16 GB显存）上，对整个数据集的相似性搜索通常每个主MIDI文件需要 10–20秒。
便捷文件: 提供精心整理的文件列表（MD5哈希到完整路径）和多个子集，便于检索和批处理。
补充代码与资源: 包含MIDI循环提取器、渲染助手等补充代码，以及精选的高质量SoundFont音色库，支持渲染、循环提取和下游实验。

数据集结构

Discover-MIDI-Dataset/ ├── ARTWORK/ # 概念图稿 ├── CODE/ # 补充Python代码和模块根目录 │ └── midi_loops_extractor/ # MIDI循环提取器代码目录 ├── DATA/ # 数据集（元）数据目录 │ ├── Features Counts/ # 所有MIDI的特征计数 │ ├── Features Matrixes/ # 所有MIDI的预计算压缩特征计数矩阵 │ ├── Files Lists/ # 按MIDI类型和分类的文件列表 │ ├── Genres MIDIs/ # 所有匹配MIDI的流派、艺术家和标题数据 │ ├── Identified MIDIs/ # 已识别MIDI的综合数据 │ ├── Karaoke MIDIs/ # 卡拉OK MIDI数据 │ ├── Lyrics MIDIs/ # 匹配MIDI的歌词数据 │ ├── Mono Melodies/ # 所有包含单音旋律的MIDI数据 │ ├── Pitches Patches Counts/ # 所有MIDI的音高-音色计数 │ └── Quality/ # 大多数MIDI的质量数据 ├── MIDIs/ # MIDI文件根目录 └── SOUNDFONTS/ # 用于渲染MIDI的精选高质量SoundFont音色库

元数据详情

特征计数: 以（特征，计数）元组列表形式呈现，索引范围[0-1089)，涵盖起始时间差、持续时间、MIDI音色/乐器、MIDI音高、和声和弦和力度六个组别。
特征矩阵: 覆盖1089个特征中的961个（不含力度特征）的压缩NumPy扁平特征矩阵数组。
文件列表: 以字典格式（MIDI的MD5哈希，完整MIDI路径）提供，包含所有MIDI及其多个子集的列表，便于检索。
流派MIDI: 包含所有已明确识别音乐流派的MIDI信息。
已识别MIDI: 包含所有已明确识别艺术家和标题的MIDI信息。
卡拉OK MIDI: 包含所有已明确识别为卡拉OK的MIDI信息。
歌词MIDI: 包含所有已匹配到相应歌词的MIDI信息。
单音旋律: 包含所有至少有一条单音旋律的MIDI信息，以列表形式（单音旋律音色/乐器，音符数量）呈现。
音高音色计数: 包含数据集中所有MIDI的音高-音色计数信息，对去重、MIR和统计分析非常有用。
质量数据: 包含数据集中大多数MIDI的详细质量信息，涵盖MIDI对齐、和弦、持续时间、音高和类型的质量。

用途

适用于训练和评估符号音乐模型、大规模MIR研究、创作者的动机和循环发现，以及构建检索或推荐系统。

引用

bibtex @misc{project_los_angeles_2025, author = { Project Los Angeles }, title = { Discover-MIDI-Dataset }, year = 2025, url = { https://huggingface.co/datasets/projectlosangeles/Discover-MIDI-Dataset }, publisher = { Hugging Face } }

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，大规模符号音乐数据集的构建对于推动算法研究至关重要。Discover-MIDI-Dataset通过聚合超过674万份独特的MIDI文件，采用严谨的两阶段去重流程来确保数据质量。首先基于MD5哈希值进行初步去重，随后通过音高与和弦数量比较进一步消除冗余，每份文件均经过MIDI规范验证与完整性检查，最终形成高度规范化的集合。数据集还预先计算了丰富的元数据与特征表示，涵盖起始时间差、持续时间、乐器音色、和弦词汇等多维信息，为后续分析提供了坚实基础。

特点

该数据集的核心特点在于其规模性与系统性。它不仅提供了海量且经过严格去重的MIDI文件，更配备了全面的预计算特征矩阵，覆盖1089个特征维度，并排除了速度信息以压缩存储。数据集附带了详尽的元数据，包括流派标签、艺术家与曲目标识、卡拉OK匹配、单音旋律摘要及多种质量指标，支持深度的音乐统计分析。尤为突出的是，其集成了GPU加速的搜索与过滤引擎，在配备足够显存的硬件上，全库相似性搜索可在10至20秒内完成，极大提升了音乐发现与信息检索的效率。

使用方法

为便于研究人员与开发者使用，数据集提供了完整的工具链与清晰的部署指南。用户可通过pip安装核心模块，并选择安装适用于GPU加速搜索或音频渲染等特定功能的可选依赖。典型工作流程包括下载数据集、解压文件、加载预计算的特征矩阵，随后利用内置的搜索函数进行音乐检索或相似性分析。数据集结构经过精心组织，包含特征矩阵、文件列表、流派映射等多个子目录，并附带了MIDI循环提取器、渲染助手等补充代码，支持从大规模批处理到针对性检索的多样化应用场景。

背景与挑战

背景概述

在音乐信息检索与符号音乐人工智能领域，大规模、高质量的MIDI数据集对于推动算法研究与创意应用具有关键意义。Discover-MIDI-Dataset由Project Los Angeles团队于2025年构建，旨在为音乐发现、符号音乐分析及生成模型训练提供一个全面且经过严格去重的资源库。该数据集汇聚了超过674万首独特的MIDI文件，每一文件均经过MIDI规范验证与完整性检查，并辅以丰富的元数据与预计算特征矩阵。其核心研究问题聚焦于如何通过系统化的数据聚合与质量控制，支持高效的音乐信息检索、模式发现及生成式人工智能模型的开发，从而在音乐计算与创意技术领域产生深远影响。

当前挑战

Discover-MIDI-Dataset致力于应对符号音乐分析中的核心挑战，即如何从海量、异构的MIDI资源中实现高效的音乐发现与语义检索。具体而言，该数据集需解决音乐信息检索领域内长期存在的难题，如跨文件的内容去重、音乐特征的标准化表示以及大规模相似性搜索的可扩展性。在构建过程中，团队面临多重技术挑战，包括设计两阶段去重流程以消除MD5哈希与和弦音高层面的重复，确保数百万文件间的数据一致性与完整性；同时，开发GPU加速的搜索引擎以在有限硬件资源下实现秒级响应，并整合多维元数据以支持复杂的音乐分析与模型训练任务。

常用场景

经典使用场景

在音乐信息检索领域，Discover-MIDI-Dataset作为大规模符号音乐数据集，其经典应用场景集中于训练和评估符号音乐生成模型。研究者利用其超过674万首去重且标准化的MIDI文件，结合预计算的特征矩阵，能够高效构建和优化基于深度学习的音乐生成架构，如Transformer或扩散模型，以生成具有复杂和声与节奏结构的原创音乐片段。

解决学术问题

该数据集有效解决了音乐人工智能研究中数据稀缺与质量不均的瓶颈问题。通过严格的两阶段去重流程与完整性校验，它提供了高质量、一致性的符号音乐数据，支撑了大规模音乐特征分析、模式发现及跨模态检索等核心研究。其丰富的元数据与预计算特征显著降低了预处理开销，使学者能专注于模型创新与算法验证，推动了符号音乐建模领域的可复现性与技术进步。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，例如基于其预计算特征矩阵的大规模音乐嵌入学习，以及利用其和弦词汇进行和声风格迁移的生成模型。数据集提供的元数据与质量指标也催生了针对MIDI文件对齐、和弦识别及旋律提取的自动化评估框架，这些成果进一步丰富了音乐信息检索与符号音乐人工智能的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集