Discover MIDI Dataset

github2025-12-28 更新2025-12-30 收录

下载链接：

https://github.com/asigalov61/discovermidi

下载链接

链接失效反馈

官方服务：

资源简介：

Discover MIDI数据集是一个大规模、生产就绪的符号音乐集合，专为音乐信息检索、发现和符号音乐AI设计。它汇集了超过674万独特的、去重和标准化的MIDI文件，每个文件都经过MIDI规范和完整性检查，以确保分析和模型开发的一致高质量输入。数据集强调通过应用两阶段去重流程（MD5哈希和音高/和弦计数比较）以及为每个文件提供广泛的预计算元数据和特征表示来实现可重复性和效率。数据集提供丰富的结构化元数据，包括特征计数、压缩特征矩阵（961个特征，不包括速度）、文件列表、流派标签、艺术家/标题识别、卡拉OK和歌词匹配、单音旋律摘要、音高-音色计数以及对齐、和弦、持续时间和音高的详细质量指标。

The Discover MIDI Dataset is a large-scale, production-ready symbolic music collection designed for music information retrieval, music discovery, and symbolic music AI. It aggregates over 6.74 million unique, deduplicated, and standardized MIDI files, each of which has undergone MIDI specification compliance and integrity checks to ensure consistently high-quality inputs for analysis and model development. The dataset prioritizes reproducibility and efficiency by implementing a two-stage deduplication pipeline (MD5 hashing and pitch/chord count comparison) and providing extensive pre-computed metadata and feature representations for every file. The dataset offers rich structured metadata, including feature counts, compressed feature matrices (961 features excluding tempo), file lists, genre tags, artist/title identification, karaoke and lyric matching, monophonic melody summaries, pitch-timbre counts, and detailed quality metrics for alignment, chords, duration, and pitch.

创建时间：

2025-12-20

原始信息汇总

Discover MIDI 数据集概述

数据集简介

Discover MIDI 数据集是一个大规模、生产就绪的符号音乐集合，专为音乐信息检索（MIR）、音乐发现和符号音乐人工智能而设计。

核心属性

目的：用于音乐信息检索、检索、分析以及生成模型开发的大规模符号数据集。
规模：包含超过 674 万 个唯一的、经过重复数据删除和标准化的 MIDI 文件，每个文件均已针对 MIDI 规范进行转换并通过完整性检查。
质量控制：采用两阶段去重流程（MD5 哈希和音高/和弦计数对比）并提供广泛的质量指标。
工具支持：提供预计算的特征、压缩的特征矩阵以及定制的 GPU 加速搜索和过滤代码库。

关键特性

大规模去重集合：超过 674 万 个经过标准化和完整性检查的 MIDI 文件。
两阶段去重：先进行 MD5 哈希去重，再进行音高/和弦计数去重。
丰富的元数据：包括特征计数、特征矩阵、文件列表、流派映射、识别的艺术家/标题、卡拉 OK 和歌词匹配、单声道旋律信息、音高-音色计数以及对齐、和弦、时长、音高等详细质量指标。
预计算特征：特征索引范围覆盖 [0,1089)，分为六组：起始时间差、持续时间、乐器/音色、音高、和声和弦（321 个和弦）以及力度。特征矩阵排除了力度特征，存储为压缩的 NumPy 数组（共 961 个特征）。
高性能搜索：为 float16 性能优化的 GPU 加速搜索和过滤代码；在合适的 GPU（建议 ≥16 GB 显存）上，对整个数据集的相似性搜索通常每个主 MIDI 文件需要 10–20 秒。
便捷文件：提供精选的文件列表（md5 → 完整路径）和多个子集，便于检索和批处理。
补充代码：包括 MIDI 循环提取器、渲染辅助工具以及可选的模块，用于加速提取和音频渲染。

数据集结构

Discover-MIDI-Dataset/ # 数据集根目录 ├── ARTWORK/ # 概念艺术作品 ├── CODE/ # 补充 Python 代码和模块的根目录 ├── DATA/ # 数据集（元）数据目录 │ ├── Features Counts/ # 所有 MIDI 的特征计数 │ ├── Features Matrixes/ # 所有 MIDI 的预计算压缩特征计数矩阵 │ ├── Files Lists/ # 按 MIDI 类型和分类的文件列表 │ ├── Genres MIDIs/ # 所有匹配 MIDI 的流派、艺术家和标题数据 │ ├── Identified MIDIs/ # 已识别 MIDI 的综合数据 │ ├── Karaoke MIDIs/ # 卡拉 OK MIDI 数据 │ ├── Lyrics MIDIs/ # 匹配 MIDI 的歌词数据 │ ├── Mono Melodies/ # 所有包含单声道旋律的 MIDI 数据 │ ├── Pitches Patches Counts/ # 所有 MIDI 的音高-音色计数 │ └── Quality/ # 大多数 MIDI 的质量数据 ├── MIDIs/ # MIDI 文件根目录 └── SOUNDFONTS/ # 用于渲染 MIDI 的精选高质量 Sound Fonts 音色库

数据集（元）数据信息

特征计数：以（特征，计数）元组列表形式呈现，索引范围 [0-1089)，涵盖起始时间差、持续时间、MIDI 音色/乐器、MIDI 音高、和声和弦（321 个和弦）和力度六个组别。
特征矩阵：压缩的 NumPy 数组，包含展平的特征矩阵，覆盖 1089 个特征中的 961 个（不含力度特征）。
文件列表：为方便检索，提供了大量文件列表，包括所有 MIDI 及其子集的列表，格式为字典（MIDI md5 哈希，完整 MIDI 路径）。
流派 MIDI：包含所有已明确识别音乐流派的 MIDI 信息。
已识别 MIDI：包含所有已明确识别艺术家和标题的 MIDI 信息。
卡拉 OK MIDI：包含所有已明确识别为卡拉 OK 的 MIDI 信息。
歌词 MIDI：包含所有已匹配到相应歌词的 MIDI 信息。
单声道旋律：包含所有至少包含一条单声道旋律的 MIDI 信息，数据以元组列表形式呈现。
音高音色计数：包含数据集中所有 MIDI 的音高-音色计数信息。
质量数据：包含数据集中大多数 MIDI 的详细质量信息，涵盖对齐、和弦、持续时间、音高和类型。

引用

bibtex @misc{project_los_angeles_2025, author = { Project Los Angeles }, title = { Discover-MIDI-Dataset }, year = 2025, url = { https://huggingface.co/datasets/projectlosangeles/Discover-MIDI-Dataset }, publisher = { Hugging Face } }

（其他引用条目已省略，遵循仅包含数据集相关核心信息的要求）

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，大规模符号音乐数据的构建是推动算法发展的关键基石。Discover MIDI Dataset 的构建过程体现了严谨的数据工程理念，其核心在于汇集并精炼了超过674万个独特的MIDI文件。该数据集通过两阶段去重流程确保内容的唯一性：首先基于MD5哈希值进行初步去重，随后通过音高与和弦数量的深度比对进一步消除冗余。每个文件均经过MIDI规范验证与完整性检查，并辅以丰富的预计算元数据，如特征计数、压缩特征矩阵及多种质量指标，从而为研究社区提供了一个高度规范化且可直接用于生产环境的数据基础。

使用方法

为便于研究人员与开发者快速利用该数据集，其提供了清晰的使用路径。用户可通过Python包管理工具安装`discovermidi`库，并选择安装适用于CPU或GPU环境的依赖项。数据集主体可从Hugging Face仓库下载，并提供了标准解压与高速并行解压两种方式。核心功能通过`load_features_matrixes`函数加载预计算的特征矩阵与对应文件名，随后调用`search_and_filter`函数即可启动高效的相似性搜索。数据集还附带了MIDI循环提取、音频渲染等辅助代码模块，以及按类型、流派、艺术家等分类的便捷文件列表，支持从探索性分析到模型训练等多种下游任务。

背景与挑战

背景概述

在音乐信息检索与符号音乐人工智能领域，大规模、高质量的数据集是推动算法创新与模型性能提升的基石。Discover MIDI Dataset 由 Project Los Angeles 与 Tegridy Code 于2025年联合创建，旨在构建一个面向音乐发现与符号音乐AI的综合性资源库。该数据集汇聚了超过674万首经过去重与规范化的MIDI文件，并辅以丰富的元数据与GPU加速检索工具，其核心研究问题聚焦于如何为音乐信息检索、创造性探索及生成式模型训练提供标准化、可扩展的符号音乐数据支持。该数据集的发布显著降低了相关领域的研究门槛，为音乐分析、模式识别及人工智能作曲等应用提供了坚实的数据基础。

当前挑战

Discover MIDI Dataset 致力于应对符号音乐处理中的核心挑战：如何从海量MIDI文件中实现高效的音乐发现与内容检索。这要求数据集不仅需解决音乐相似性匹配、风格分类及动机挖掘等复杂任务，还需在构建过程中克服数据质量不一、重复文件泛滥及特征提取标准化等难题。为此，项目团队实施了两阶段去重策略，结合MD5哈希与音高/和弦计数比对，并进行了严格的MIDI规范验证与完整性检查，以确保输入数据的一致性与可靠性。此外，为支撑GPU加速检索，数据集需预先计算涵盖起始时间差、持续时间、乐器音色、和弦词汇及力度等多维特征矩阵，这对计算资源与存储优化提出了较高要求。

常用场景

经典使用场景

在音乐信息检索领域，Discover MIDI Dataset以其超过674万首去重且标准化的MIDI文件，为研究人员提供了大规模符号音乐分析的基石。该数据集最经典的使用场景在于训练和评估符号音乐生成模型，例如基于Transformer或扩散模型的音乐生成系统。研究者能够利用其预计算的特征矩阵和丰富的元数据，高效地进行音乐风格建模、旋律生成或和声分析，从而推动音乐人工智能在创作与理解方面的前沿探索。

解决学术问题

该数据集有效解决了符号音乐研究中数据稀缺与质量不均的常见问题。通过两阶段去重流程和完整性校验，它确保了输入数据的一致性与可靠性，为音乐信息检索、模式发现及音乐理论分析提供了高质量基准。其预计算的广泛特征覆盖了起始时间、持续时间、乐器音色、音高、和声和弦及力度等多个维度，使得大规模统计分析与跨文件检索任务得以系统化进行，显著提升了研究的可复现性与效率。

实际应用

在实际应用层面，Discover MIDI Dataset支持音乐创作与产业中的多种需求。其GPU加速的搜索与过滤引擎能够在10至20秒内完成全库相似性检索，助力音乐制作人快速发现特定风格或动机的循环乐段。同时，数据集附带的循环提取器与高质量音色库，为游戏配乐、广告音乐生成及个性化音乐推荐系统提供了即用的符号音乐素材与工具，降低了创意原型开发的技术门槛。

数据集最近研究