five

Godzilla MIDI Dataset

收藏
github2025-05-03 更新2025-05-06 收录
下载链接:
https://github.com/asigalov61/godzillamididataset
下载链接
链接失效反馈
官方服务:
资源简介:
巨大的、全面的、标准化的和可搜索的MIDI数据集,用于音乐信息检索(MIR)和符号音乐AI目的。

A vast, comprehensive, standardized, and searchable MIDI dataset designed for Music Information Retrieval (MIR) and symbolic music AI applications.
创建时间:
2025-04-29
原始信息汇总

Godzilla MIDI Dataset 概述

数据集特点

  1. 规模与质量

    • 包含超过543万首独特的、去重且标准化的MIDI文件
    • 所有MIDI文件均符合MIDI格式规范并通过完整性检查
  2. 去重处理

    • 通过MD5哈希值和音高-音色计数进行双重去重
  3. 元数据

    • 收集了全面的MIDI元数据
    • 提供定制化的GPU加速搜索和过滤代码

安装选项

  1. CPU安装

    • 最低要求:128GB内存
    • 安装命令:pip install -U godzillamididataset
  2. GPU安装

    • 最低要求:80GB GPU显存
    • 安装命令:pip install -U godzillamididataset[gpu]
  3. 可选包

    • 快速并行提取模块:p7zip-fullpigz
    • MIDI音频渲染模块:fluidsynth

数据集结构

Godzilla-MIDI-Dataset/ ├── ARTWORK/ # 概念艺术作品 ├── CODE/ # 补充Python代码和模块 ├── DATA/ # 元数据目录 │ ├── Averages/ # 所有MIDI的平均数据 │ ├── Basic Features/ # 基础特征数据 │ ├── Files Lists/ # MIDI文件列表 │ ├── Identified MIDIs/ # 已识别的MIDI数据 │ ├── Metadata/ # 原始元数据 │ ├── Mono Melodies/ # 单音旋律数据 │ ├── Pitches Patches Counts/ # 音高-音色计数 │ ├── Pitches Sums/ # 音高总和 │ ├── Signatures/ # 签名数据 │ └── Text Captions/ # 文本描述 ├── MIDIs/ # MIDI文件目录 └── SOUNDFONTS/ # 高质量音色库

元数据信息

  1. 平均值数据

    • 分为三组:不含鼓的音符平均值、含鼓的音符平均值、仅鼓的音符平均值
    • 每组包含四个指标:起始时间差、持续时间、音高、力度
  2. 基础特征

    • 包含111个指标,适用于音乐分类和分析
  3. 文件列表

    • 提供MIDI的MD5哈希和完整路径
  4. 签名数据

    • 包含两种签名:全签名(577个特征)和基础签名(392个特征)
    • 特征分为音高、和弦和鼓音高三类
  5. 文本描述

    • 提供每首MIDI的详细文本描述,适用于文本到音乐任务

引用信息

bibtex @misc{GodzillaMIDIDataset2025, title = {Godzilla MIDI Dataset: Enormous, comprehensive, normalized and searchable MIDI dataset for MIR and symbolic music AI purposes}, author = {Alex Lev}, publisher = {Project Los Angeles / Tegridy Code}, year = {2025}, url = {https://huggingface.co/datasets/projectlosangeles/Godzilla-MIDI-Dataset} }

搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索和符号音乐人工智能研究领域,Godzilla MIDI数据集通过系统化的构建流程确立了其权威性。该数据集采用双重去重机制,先通过MD5哈希值进行初级筛选,再基于音高-音色组合数进行深度去重,确保543万首MIDI文件的独特性。所有文件均经过标准化转换处理,严格遵循MIDI格式规范并完成完整性校验,同时配套收集了详尽的元数据信息。数据集构建过程中还创新性地开发了GPU加速的检索系统,显著提升了大规模音乐数据分析的效率。
使用方法
该数据集通过模块化设计实现了灵活的应用部署。用户可通过pip安装标准包,根据计算环境选择CPU或GPU优化版本,其中GPU版本需要80GB显存支持完整检索功能。典型使用流程包括:从Hugging Face仓库下载数据集,利用内置函数或快速并行解压工具提取文件,加载预计算的音乐特征签名,最后通过search_and_filter函数实现高效检索。数据集特别设计了主MIDI比对机制,用户只需将目标音乐放入指定目录,即可在GPU环境下实现2-3秒级的快速匹配,为音乐推荐、风格迁移等AI应用提供即用型解决方案。
背景与挑战
背景概述
Godzilla MIDI Dataset是由Alex Lev及其团队在2025年推出的一个庞大、全面、标准化且可搜索的MIDI数据集,专为音乐信息检索(MIR)和符号音乐人工智能研究设计。该数据集由Project Los Angeles和Tegridy Code联合发布,旨在解决音乐信息检索和人工智能生成音乐中的符号音乐数据不足问题。数据集包含超过543万首独特的MIDI文件,经过严格的去重和标准化处理,每首MIDI文件均符合MIDI格式规范并经过完整性检查。其广泛的应用场景包括音乐分类、分析、生成及文本到音乐任务,极大地推动了符号音乐处理领域的研究进展。
当前挑战
Godzilla MIDI Dataset面临的挑战主要集中在两个方面:一是领域问题的挑战,即如何高效处理和分析海量MIDI数据以支持复杂的音乐信息检索和生成任务;二是构建过程中的技术挑战,包括大规模数据的去重、标准化处理、元数据收集以及GPU加速搜索算法的设计与优化。此外,数据集的庞大规模对计算资源提出了极高要求,如GPU搜索需要至少80GB的显存,而CPU搜索则需要128GB以上的内存,这为实际应用带来了显著的硬件门槛。
常用场景
经典使用场景
在音乐信息检索(MIR)和符号音乐人工智能领域,Godzilla MIDI数据集凭借其海量且规范化的MIDI文件,成为研究音乐结构分析和模式识别的理想选择。研究者可以借助该数据集中的音符、和弦及鼓点特征,深入探索音乐生成模型的训练与优化,特别是在多音轨音乐合成和自动编曲方面展现出卓越的应用潜力。
解决学术问题
该数据集通过去重和标准化处理,有效解决了MIDI数据质量参差不齐的难题,为音乐特征提取和相似性检索提供了可靠基准。其丰富的元数据和预计算签名显著降低了音乐分类、风格迁移等任务的实现门槛,推动了符号音乐生成领域的方法论创新。
实际应用
在商业音乐创作辅助系统中,该数据集的高效搜索功能可快速匹配用户输入的旋律片段,为作曲者提供灵感参考。教育领域则利用其规范化音轨构建智能音乐教学工具,而游戏开发者通过实时渲染技术将其应用于动态背景音乐生成。
数据集最近研究
最新研究方向
在音乐信息检索(MIR)和符号音乐人工智能领域,Godzilla MIDI数据集以其海量、标准化和可搜索的特性成为研究焦点。前沿研究主要集中在该数据集如何推动生成式音乐模型的发展,特别是在多模态音乐生成和音乐风格迁移方面。研究者利用其丰富的元数据和标准化MIDI文件,探索音乐情感识别、自动作曲以及跨模态音乐检索等热点问题。该数据集的大规模和多样性为音乐人工智能模型的训练提供了坚实基础,显著提升了模型在复杂音乐结构理解和生成任务上的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作