MetaMIDI Dataset
收藏MetaMIDI 数据集概述
数据集简介
MetaMIDI 数据集(MMD)是一个大规模的 MIDI 文件和元数据集合,包含 436,631 个 MIDI 文件和相关元数据。该数据集不仅包含 MIDI 文件,还提供了艺术家、标题和流派元数据,这些数据在抓取过程中收集(如果可用)。MMD 中的 MIDI 文件与从 Spotify 检索的 32,000,000 个 30 秒音频剪辑进行了匹配,产生了超过 10,796,557 个音频-MIDI 匹配。此外,MMD 还链接了 600,142 个 Spotify 曲目与 1,094,901 个 MusicBrainz 录音,生成了 168,032 个与 MusicBrainz 数据库匹配的 MIDI 文件。
数据集内容
- MIDI 文件:包含 436,631 个 MIDI 文件。
- 艺术家和标题元数据:为 221,504 个 MIDI 文件抓取了艺术家和标题元数据。
- 流派元数据:为 143,868 个 MIDI 文件抓取了流派元数据。
- 音频-MIDI 匹配:通过改进的音频-MIDI 匹配程序,产生了 10,796,557 个音频-MIDI 匹配,链接了 237,236 个 MIDI 文件与一个或多个 Spotify 曲目。
- 高可靠性音频-MIDI + 元数据匹配:包含 829,728 个高可靠性音频-MIDI + 元数据匹配,链接了 53,496 个 MIDI 文件与一个或多个 Spotify 曲目。
- Spotify 和 MusicBrainz 链接:通过链接 Spotify 曲目和 MusicBrainz 录音,生成了 8,263,482 个唯一链接,关联了 1,094,901 个 MusicBrainz 录音与 600,142 个 Spotify 曲目。
- MusicBrainz 匹配:通过 Spotify/MusicBrainz 链接程序,生成了 168,032 个与 MusicBrainz ID 匹配的 MIDI 文件。
数据集访问
数据集可通过 Zenodo 访问。用户需提供姓名、机构隶属关系、机构联系信息、研究项目名称、研究地点,并承诺不分享或分发数据集。
元数据
艺术家和标题
文件 MMD_scraped_title_artist.jsonl 包含 md5 与 (标题, 艺术家) 元组的链接。
流派
文件 MMD_scraped_genre.jsonl 包含 md5 与流派列表的链接。
音频-MIDI 匹配
音频-MIDI 匹配
文件 MMD_audio_matches.tsv 包含 md5、分数和 Spotify 曲目 ID(sid)的表格。
音频-MIDI + 文本元数据匹配
文件 MMD_audio_text_matches.tsv 包含 md5、分数和 Spotify 曲目 ID(sid)的表格,这些匹配包含抓取的标题 + 艺术家元数据。
Spotify 和 MusicBrainz 链接
Spotify 到 MusicBrainz 映射
文件 MMD_sid_to_mbid.json 提供每个 Spotify ID(sid)对应的 MusicBrainz ID(mbid)列表。
md5 到 MusicBrainz 映射
文件 MMD_md5_to_mbid.json 和 MMD_md5_to_mbid_audio_text.json 分别提供 md5 与 MusicBrainz ID(mbid)的映射。
声学流派
使用 2018-AcousticBrainz-Genre-Task 数据集,生成了 MMD_audio_matched_genre.jsonl 和 MMM_audio_text_matched_genre.jsonl 文件,这些文件映射 md5 到流派计数。
版权
数据集提供了 MMD_copyright.txt 文件,列出了数据集中所有 MIDI 文件的版权元事件,以承认原始作者。
数据集统计
数据集提供了多个统计图表,展示了 MIDI 文件的轨道数量、节拍数量、调号、时间签名、速度和通用 MIDI 乐器类型的分布。




