Discover-MIDI-Dataset
收藏Discover MIDI Dataset 数据集概述
基本信息
- 数据集名称: Discover MIDI Dataset (discovermidi)
- 发布者: Project Los Angeles / Tegridy Code
- 发布日期: 2025年
- 许可证: CC-BY-NC-SA-4.0
- 语言: 英语
- 标签: MIDI, music, music discovery, MIDI discovery, MIDI search, music search, music ai, MIR, MIDI dataset, music dataset
- 数据规模: 1M < n < 10M
数据集简介
Discover MIDI Dataset 是一个大规模、生产就绪的符号音乐集合,专为音乐信息检索(MIR)、音乐发现和符号音乐AI而设计。它旨在为研究人员和创作者提供大规模查找、分析和原型制作MIDI的能力。
核心规模与质量
- 数据量: 包含超过 674万 个唯一、去重且标准化的MIDI文件。
- 质量控制: 每个文件均根据MIDI规范进行验证和完整性检查。
- 去重流程: 采用两阶段去重管道(MD5哈希和音高/和弦计数比较),确保数据唯一性。
关键特性
- 丰富的元数据: 提供特征计数、压缩特征矩阵、文件列表、流派标签、艺术家/标题识别、卡拉OK和歌词匹配、单音旋律摘要、音高-音色计数以及详细的质量指标。
- 预计算特征: 特征索引范围覆盖
[0,1089),涵盖起始时间差、持续时间、乐器/音色、乐器和鼓的音高、321种和弦的和声词汇以及力度。特征矩阵(961个特征,不含力度)以压缩的NumPy数组形式存储。 - 高性能搜索: 提供GPU加速的搜索和过滤引擎,针对float16性能优化。在合适的GPU硬件(建议≥16 GB显存)上,对整个数据集的相似性搜索通常每个主MIDI文件需要 10–20秒。
- 便捷文件: 提供精心整理的文件列表(MD5哈希到完整路径)和多个子集,便于检索和批处理。
- 补充代码与资源: 包含MIDI循环提取器、渲染助手等补充代码,以及精选的高质量SoundFont音色库,支持渲染、循环提取和下游实验。
数据集结构
Discover-MIDI-Dataset/ ├── ARTWORK/ # 概念图稿 ├── CODE/ # 补充Python代码和模块根目录 │ └── midi_loops_extractor/ # MIDI循环提取器代码目录 ├── DATA/ # 数据集(元)数据目录 │ ├── Features Counts/ # 所有MIDI的特征计数 │ ├── Features Matrixes/ # 所有MIDI的预计算压缩特征计数矩阵 │ ├── Files Lists/ # 按MIDI类型和分类的文件列表 │ ├── Genres MIDIs/ # 所有匹配MIDI的流派、艺术家和标题数据 │ ├── Identified MIDIs/ # 已识别MIDI的综合数据 │ ├── Karaoke MIDIs/ # 卡拉OK MIDI数据 │ ├── Lyrics MIDIs/ # 匹配MIDI的歌词数据 │ ├── Mono Melodies/ # 所有包含单音旋律的MIDI数据 │ ├── Pitches Patches Counts/ # 所有MIDI的音高-音色计数 │ └── Quality/ # 大多数MIDI的质量数据 ├── MIDIs/ # MIDI文件根目录 └── SOUNDFONTS/ # 用于渲染MIDI的精选高质量SoundFont音色库
元数据详情
- 特征计数: 以(特征,计数)元组列表形式呈现,索引范围
[0-1089),涵盖起始时间差、持续时间、MIDI音色/乐器、MIDI音高、和声和弦和力度六个组别。 - 特征矩阵: 覆盖1089个特征中的961个(不含力度特征)的压缩NumPy扁平特征矩阵数组。
- 文件列表: 以字典格式(MIDI的MD5哈希,完整MIDI路径)提供,包含所有MIDI及其多个子集的列表,便于检索。
- 流派MIDI: 包含所有已明确识别音乐流派的MIDI信息。
- 已识别MIDI: 包含所有已明确识别艺术家和标题的MIDI信息。
- 卡拉OK MIDI: 包含所有已明确识别为卡拉OK的MIDI信息。
- 歌词MIDI: 包含所有已匹配到相应歌词的MIDI信息。
- 单音旋律: 包含所有至少有一条单音旋律的MIDI信息,以列表形式(单音旋律音色/乐器,音符数量)呈现。
- 音高音色计数: 包含数据集中所有MIDI的音高-音色计数信息,对去重、MIR和统计分析非常有用。
- 质量数据: 包含数据集中大多数MIDI的详细质量信息,涵盖MIDI对齐、和弦、持续时间、音高和类型的质量。
用途
适用于训练和评估符号音乐模型、大规模MIR研究、创作者的动机和循环发现,以及构建检索或推荐系统。
引用
bibtex @misc{project_los_angeles_2025, author = { Project Los Angeles }, title = { Discover-MIDI-Dataset }, year = 2025, url = { https://huggingface.co/datasets/projectlosangeles/Discover-MIDI-Dataset }, publisher = { Hugging Face } }




