Discover MIDI Dataset
收藏Discover MIDI 数据集概述
数据集简介
Discover MIDI 数据集是一个大规模、生产就绪的符号音乐集合,专为音乐信息检索(MIR)、音乐发现和符号音乐人工智能而设计。
核心属性
- 目的:用于音乐信息检索、检索、分析以及生成模型开发的大规模符号数据集。
- 规模:包含超过 674 万 个唯一的、经过重复数据删除和标准化的 MIDI 文件,每个文件均已针对 MIDI 规范进行转换并通过完整性检查。
- 质量控制:采用两阶段去重流程(MD5 哈希和音高/和弦计数对比)并提供广泛的质量指标。
- 工具支持:提供预计算的特征、压缩的特征矩阵以及定制的 GPU 加速搜索和过滤代码库。
关键特性
- 大规模去重集合:超过 674 万 个经过标准化和完整性检查的 MIDI 文件。
- 两阶段去重:先进行 MD5 哈希去重,再进行音高/和弦计数去重。
- 丰富的元数据:包括特征计数、特征矩阵、文件列表、流派映射、识别的艺术家/标题、卡拉 OK 和歌词匹配、单声道旋律信息、音高-音色计数以及对齐、和弦、时长、音高等详细质量指标。
- 预计算特征:特征索引范围覆盖
[0,1089),分为六组:起始时间差、持续时间、乐器/音色、音高、和声和弦(321 个和弦)以及力度。特征矩阵排除了力度特征,存储为压缩的 NumPy 数组(共 961 个特征)。 - 高性能搜索:为 float16 性能优化的 GPU 加速搜索和过滤代码;在合适的 GPU(建议 ≥16 GB 显存)上,对整个数据集的相似性搜索通常每个主 MIDI 文件需要 10–20 秒。
- 便捷文件:提供精选的文件列表(md5 → 完整路径)和多个子集,便于检索和批处理。
- 补充代码:包括 MIDI 循环提取器、渲染辅助工具以及可选的模块,用于加速提取和音频渲染。
数据集结构
Discover-MIDI-Dataset/ # 数据集根目录 ├── ARTWORK/ # 概念艺术作品 ├── CODE/ # 补充 Python 代码和模块的根目录 ├── DATA/ # 数据集(元)数据目录 │ ├── Features Counts/ # 所有 MIDI 的特征计数 │ ├── Features Matrixes/ # 所有 MIDI 的预计算压缩特征计数矩阵 │ ├── Files Lists/ # 按 MIDI 类型和分类的文件列表 │ ├── Genres MIDIs/ # 所有匹配 MIDI 的流派、艺术家和标题数据 │ ├── Identified MIDIs/ # 已识别 MIDI 的综合数据 │ ├── Karaoke MIDIs/ # 卡拉 OK MIDI 数据 │ ├── Lyrics MIDIs/ # 匹配 MIDI 的歌词数据 │ ├── Mono Melodies/ # 所有包含单声道旋律的 MIDI 数据 │ ├── Pitches Patches Counts/ # 所有 MIDI 的音高-音色计数 │ └── Quality/ # 大多数 MIDI 的质量数据 ├── MIDIs/ # MIDI 文件根目录 └── SOUNDFONTS/ # 用于渲染 MIDI 的精选高质量 Sound Fonts 音色库
数据集(元)数据信息
- 特征计数:以(特征,计数)元组列表形式呈现,索引范围
[0-1089),涵盖起始时间差、持续时间、MIDI 音色/乐器、MIDI 音高、和声和弦(321 个和弦)和力度六个组别。 - 特征矩阵:压缩的 NumPy 数组,包含展平的特征矩阵,覆盖 1089 个特征中的 961 个(不含力度特征)。
- 文件列表:为方便检索,提供了大量文件列表,包括所有 MIDI 及其子集的列表,格式为字典(MIDI md5 哈希,完整 MIDI 路径)。
- 流派 MIDI:包含所有已明确识别音乐流派的 MIDI 信息。
- 已识别 MIDI:包含所有已明确识别艺术家和标题的 MIDI 信息。
- 卡拉 OK MIDI:包含所有已明确识别为卡拉 OK 的 MIDI 信息。
- 歌词 MIDI:包含所有已匹配到相应歌词的 MIDI 信息。
- 单声道旋律:包含所有至少包含一条单声道旋律的 MIDI 信息,数据以元组列表形式呈现。
- 音高音色计数:包含数据集中所有 MIDI 的音高-音色计数信息。
- 质量数据:包含数据集中大多数 MIDI 的详细质量信息,涵盖对齐、和弦、持续时间、音高和类型。
引用
bibtex @misc{project_los_angeles_2025, author = { Project Los Angeles }, title = { Discover-MIDI-Dataset }, year = 2025, url = { https://huggingface.co/datasets/projectlosangeles/Discover-MIDI-Dataset }, publisher = { Hugging Face } }
(其他引用条目已省略,遵循仅包含数据集相关核心信息的要求)




