five

MetaMIDI Dataset

收藏
github2024-11-21 更新2024-11-22 收录
下载链接:
https://github.com/Metacreation-Lab/MetaMIDI-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MetaMIDI数据集(MMD)是一个大规模的MIDI文件和元数据集合,包含436,631个MIDI文件和相关元数据。除了MIDI文件外,还提供了艺术家、标题和流派元数据。MIDI文件与从Spotify获取的32,000,000个30秒音频片段进行了匹配,产生了超过10,796,557个音频-MIDI匹配。此外,还通过Spotify和MusicBrainz的链接,将600,142个Spotify曲目与1,094,901个MusicBrainz录音关联,生成了168,032个与MusicBrainz数据库匹配的MIDI文件。这些链接为数据集中的许多文件增加了通过Spotify API和MusicBrainz数据库提供的广泛元数据。

MetaMIDI Dataset (MMD) is a large-scale collection of MIDI files and metadata, containing 436,631 MIDI files and their associated metadata. In addition to the MIDI files, it provides artist, title, and genre metadata. The MIDI files were matched with 32,000,000 30-second audio clips obtained from Spotify, resulting in over 10,796,557 audio-MIDI matches. Furthermore, through the connections between Spotify and MusicBrainz, 600,142 Spotify tracks were associated with 1,094,901 MusicBrainz recordings, generating 168,032 MIDI files that match entries in the MusicBrainz database. These linkages add extensive metadata provided by the Spotify API and MusicBrainz database to many files in the dataset.
创建时间:
2024-11-21
原始信息汇总

MetaMIDI 数据集概述

数据集简介

MetaMIDI 数据集(MMD)是一个大规模的 MIDI 文件和元数据集合,包含 436,631 个 MIDI 文件和相关元数据。该数据集不仅包含 MIDI 文件,还提供了艺术家、标题和流派元数据,这些数据在抓取过程中收集(如果可用)。MMD 中的 MIDI 文件与从 Spotify 检索的 32,000,000 个 30 秒音频剪辑进行了匹配,产生了超过 10,796,557 个音频-MIDI 匹配。此外,MMD 还链接了 600,142 个 Spotify 曲目与 1,094,901 个 MusicBrainz 录音,生成了 168,032 个与 MusicBrainz 数据库匹配的 MIDI 文件。

数据集内容

  1. MIDI 文件:包含 436,631 个 MIDI 文件。
  2. 艺术家和标题元数据:为 221,504 个 MIDI 文件抓取了艺术家和标题元数据。
  3. 流派元数据:为 143,868 个 MIDI 文件抓取了流派元数据。
  4. 音频-MIDI 匹配:通过改进的音频-MIDI 匹配程序,产生了 10,796,557 个音频-MIDI 匹配,链接了 237,236 个 MIDI 文件与一个或多个 Spotify 曲目。
  5. 高可靠性音频-MIDI + 元数据匹配:包含 829,728 个高可靠性音频-MIDI + 元数据匹配,链接了 53,496 个 MIDI 文件与一个或多个 Spotify 曲目。
  6. Spotify 和 MusicBrainz 链接:通过链接 Spotify 曲目和 MusicBrainz 录音,生成了 8,263,482 个唯一链接,关联了 1,094,901 个 MusicBrainz 录音与 600,142 个 Spotify 曲目。
  7. MusicBrainz 匹配:通过 Spotify/MusicBrainz 链接程序,生成了 168,032 个与 MusicBrainz ID 匹配的 MIDI 文件。

数据集访问

数据集可通过 Zenodo 访问。用户需提供姓名、机构隶属关系、机构联系信息、研究项目名称、研究地点,并承诺不分享或分发数据集。

元数据

艺术家和标题

文件 MMD_scraped_title_artist.jsonl 包含 md5 与 (标题, 艺术家) 元组的链接。

流派

文件 MMD_scraped_genre.jsonl 包含 md5 与流派列表的链接。

音频-MIDI 匹配

音频-MIDI 匹配

文件 MMD_audio_matches.tsv 包含 md5、分数和 Spotify 曲目 ID(sid)的表格。

音频-MIDI + 文本元数据匹配

文件 MMD_audio_text_matches.tsv 包含 md5、分数和 Spotify 曲目 ID(sid)的表格,这些匹配包含抓取的标题 + 艺术家元数据。

Spotify 和 MusicBrainz 链接

Spotify 到 MusicBrainz 映射

文件 MMD_sid_to_mbid.json 提供每个 Spotify ID(sid)对应的 MusicBrainz ID(mbid)列表。

md5 到 MusicBrainz 映射

文件 MMD_md5_to_mbid.jsonMMD_md5_to_mbid_audio_text.json 分别提供 md5 与 MusicBrainz ID(mbid)的映射。

声学流派

使用 2018-AcousticBrainz-Genre-Task 数据集,生成了 MMD_audio_matched_genre.jsonlMMM_audio_text_matched_genre.jsonl 文件,这些文件映射 md5 到流派计数。

版权

数据集提供了 MMD_copyright.txt 文件,列出了数据集中所有 MIDI 文件的版权元事件,以承认原始作者。

数据集统计

数据集提供了多个统计图表,展示了 MIDI 文件的轨道数量、节拍数量、调号、时间签名、速度和通用 MIDI 乐器类型的分布。

搜集汇总
数据集介绍
main_image_url
构建方式
MetaMIDI数据集(MMD)的构建过程融合了多种数据源和先进的数据匹配技术。首先,通过网络爬虫技术收集了436,631个MIDI文件,并从中提取了艺术家、标题和流派等元数据。随后,这些MIDI文件与从Spotify获取的32,000,000个30秒音频片段进行了匹配,生成了超过10,796,557个音频-MIDI匹配对。此外,通过将Spotify轨道与MusicBrainz录音链接,进一步增强了数据集的元数据丰富性,最终形成了168,032个与MusicBrainz数据库匹配的MIDI文件。
特点
MetaMIDI数据集的显著特点在于其庞大的规模和丰富的元数据。该数据集不仅包含了436,631个MIDI文件,还提供了221,504个MIDI文件的艺术家和标题元数据,以及143,868个MIDI文件的流派元数据。此外,通过改进的音频-MIDI匹配程序,数据集实现了10,796,557个音频-MIDI匹配,其中829,728个匹配具有高可靠性。这些特点使得MetaMIDI数据集成为音乐信息检索(MIR)研究领域的宝贵资源。
使用方法
MetaMIDI数据集的使用方法相对直接。用户可以通过Zenodo平台访问数据集,但需提供个人信息和研究项目详情。下载数据集后,用户可以使用提供的Python脚本下载与MIDI文件匹配的30秒Spotify预览片段。此外,数据集还提供了多种元数据文件,如艺术家和标题元数据、流派元数据以及音频-MIDI匹配结果,这些文件均以JSONL格式存储,便于解析和处理。通过这些数据,研究人员可以深入探索音乐信息检索的各个方面。
背景与挑战
背景概述
MetaMIDI数据集(MMD)是由Metacreation实验室开发的,旨在链接符号音乐数据与音频数据的庞大集合。该数据集包含436,631个MIDI文件及其相关元数据,包括艺术家、标题和流派信息。通过与Spotify的32,000,000个30秒音频片段进行匹配,MMD实现了超过10,796,557个音频-MIDI匹配。此外,MMD还通过Spotify与MusicBrainz的链接,将600,142个Spotify曲目与1,094,901个MusicBrainz录音关联,生成168,032个MIDI文件与MusicBrainz数据库的匹配。这一数据集的构建旨在为音乐信息检索(MIR)领域的研究人员提供丰富的资源,以解决多种研究问题。
当前挑战
MetaMIDI数据集在构建过程中面临多项挑战。首先,如何高效且准确地匹配MIDI文件与音频数据是一个复杂的问题,涉及大量的计算资源和算法优化。其次,元数据的收集与整合,尤其是艺术家、标题和流派的准确匹配,需要处理大量的异构数据源,并解决数据不一致性问题。此外,与Spotify和MusicBrainz的链接过程需要确保链接的可靠性和准确性,以避免数据集中的错误关联。最后,数据集的版权问题也是一个重要的挑战,需要确保所有MIDI文件的版权信息得到正确记录和尊重。
常用场景
经典使用场景
MetaMIDI数据集的经典使用场景主要集中在音乐信息检索(MIR)领域。研究者可以利用该数据集进行音频与MIDI文件的匹配研究,通过分析音频-MIDI匹配的准确性和可靠性,提升音乐识别和分类的精度。此外,数据集中的艺术家、标题和流派元数据为音乐风格分析和艺术家识别提供了丰富的资源,使得基于元数据的音乐推荐系统成为可能。
解决学术问题
MetaMIDI数据集解决了音乐信息检索领域中的多个关键学术问题。首先,它通过大规模的MIDI文件和音频片段匹配,解决了音频与符号音乐数据之间的关联难题。其次,数据集中的元数据链接,如Spotify和MusicBrainz的映射,为音乐作品的跨平台识别和分类提供了新的研究方向。这些解决方案不仅提升了音乐信息检索的准确性,还为音乐学研究提供了新的数据支持。
衍生相关工作
MetaMIDI数据集的发布催生了一系列相关研究和工作。例如,基于该数据集的音频-MIDI匹配算法研究,提升了音乐识别技术的准确性。同时,数据集中的元数据链接方法被应用于其他多媒体数据集的构建和研究中,推动了跨平台数据整合技术的发展。此外,数据集的统计分析方法也为音乐特征提取和分类研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作