Godzilla MIDI Dataset
收藏Godzilla MIDI Dataset 概述
数据集特点
-
规模与质量
- 包含超过543万首独特的、去重且标准化的MIDI文件
- 所有MIDI文件均符合MIDI格式规范并通过完整性检查
-
去重处理
- 通过MD5哈希值和音高-音色计数进行双重去重
-
元数据
- 收集了全面的MIDI元数据
- 提供定制化的GPU加速搜索和过滤代码
安装选项
-
CPU安装
- 最低要求:128GB内存
- 安装命令:
pip install -U godzillamididataset
-
GPU安装
- 最低要求:80GB GPU显存
- 安装命令:
pip install -U godzillamididataset[gpu]
-
可选包
- 快速并行提取模块:
p7zip-full和pigz - MIDI音频渲染模块:
fluidsynth
- 快速并行提取模块:
数据集结构
Godzilla-MIDI-Dataset/ ├── ARTWORK/ # 概念艺术作品 ├── CODE/ # 补充Python代码和模块 ├── DATA/ # 元数据目录 │ ├── Averages/ # 所有MIDI的平均数据 │ ├── Basic Features/ # 基础特征数据 │ ├── Files Lists/ # MIDI文件列表 │ ├── Identified MIDIs/ # 已识别的MIDI数据 │ ├── Metadata/ # 原始元数据 │ ├── Mono Melodies/ # 单音旋律数据 │ ├── Pitches Patches Counts/ # 音高-音色计数 │ ├── Pitches Sums/ # 音高总和 │ ├── Signatures/ # 签名数据 │ └── Text Captions/ # 文本描述 ├── MIDIs/ # MIDI文件目录 └── SOUNDFONTS/ # 高质量音色库
元数据信息
-
平均值数据
- 分为三组:不含鼓的音符平均值、含鼓的音符平均值、仅鼓的音符平均值
- 每组包含四个指标:起始时间差、持续时间、音高、力度
-
基础特征
- 包含111个指标,适用于音乐分类和分析
-
文件列表
- 提供MIDI的MD5哈希和完整路径
-
签名数据
- 包含两种签名:全签名(577个特征)和基础签名(392个特征)
- 特征分为音高、和弦和鼓音高三类
-
文本描述
- 提供每首MIDI的详细文本描述,适用于文本到音乐任务
引用信息
bibtex @misc{GodzillaMIDIDataset2025, title = {Godzilla MIDI Dataset: Enormous, comprehensive, normalized and searchable MIDI dataset for MIR and symbolic music AI purposes}, author = {Alex Lev}, publisher = {Project Los Angeles / Tegridy Code}, year = {2025}, url = {https://huggingface.co/datasets/projectlosangeles/Godzilla-MIDI-Dataset} }




