Godzilla-MIDI-Dataset
收藏Godzilla MIDI Dataset 概述
基本描述
- 许可证: cc-by-nc-sa-4.0
- 语言: 英语 (en)
- 标签: Godzilla, MIDI, MIDI dataset, MIDI music, giant, raw, searchable, comprehensive, music, music ai, MIR
- 数据集名称: godzillamididataset
- 规模: 1M<n<10M
- 任务类别: audio-classification
数据集特点
- 规模与质量: 包含超过543万条唯一、去重且标准化的MIDI文件。
- 格式规范: 所有MIDI文件均转换为标准MIDI格式并通过完整性检查。
- 去重处理: 通过md5哈希和音高-音色计数两次去重。
- 元数据: 收集了所有MIDI文件的广泛且全面的元数据。
- 搜索功能: 提供定制化且高度优化的GPU加速搜索和过滤代码。
安装方式
基础安装
sh !pip install --upgrade pip !pip install --upgrade setuptools
CPU专用安装
sh !pip install -U godzillamididataset
GPU加速安装
sh !pip install -U godzillamididataset[gpu]
可选包
-
快速并行提取模块: sh !sudo apt update -y !sudo apt install -y p7zip-full !sudo apt install -y pigz
-
音频渲染模块: sh !sudo apt update -y !sudo apt install fluidsynth
数据集结构
Godzilla-MIDI-Dataset/ ├── ARTWORK/ ├── CODE/ ├── DATA/ │ ├── Averages/ │ ├── Basic Features/ │ ├── Files Lists/ │ ├── Identified MIDIs/ │ ├── Metadata/ │ ├── Mono Melodies/ │ ├── Pitches Patches Counts/ │ ├── Pitches Sums/ │ ├── Signatures/ │ └── Text Captions/ ├── MIDIs/ └── SOUNDFONTS/
元数据信息
- Averages: 包含无鼓音符、音符与鼓、无音符鼓三组的平均值。
- Basic Features: 包含111个指标的字典,适用于音乐分类和分析。
- Files Lists: 提供MIDI文件的哈希和路径列表。
- Identified MIDIs: 包含已识别的MIDI艺术家、标题和流派信息。
- Metadata: 包含所有MIDI文件的原始元数据。
- Mono Melodies: 包含单音旋律的MIDI信息。
- Pitches Patches Counts: 包含所有MIDI的音高-音色计数。
- Pitches Sums: 包含所有MIDI的音高总和。
- Signatures: 包含每个MIDI的完整签名(577特征)和基础签名(392特征)。
- Text Captions: 包含每个MIDI的详细文本描述。
引用
bibtex @misc{GodzillaMIDIDataset2025, title = {Godzilla MIDI Dataset: Enormous, comprehensive, normalized and searchable MIDI dataset for MIR and symbolic music AI purposes}, author = {Alex Lev}, publisher = {Project Los Angeles / Tegridy Code}, year = {2025}, url = {https://huggingface.co/datasets/projectlosangeles/Godzilla-MIDI-Dataset}




