five

Godzilla-MIDI-Dataset

收藏
Hugging Face2025-05-02 更新2025-05-03 收录
下载链接:
https://huggingface.co/datasets/projectlosangeles/Godzilla-MIDI-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Godzilla MIDI 数据集是一个巨大、全面、规范化和可搜索的MIDI数据集,用于音乐信息检索(MIR)和符号化音乐人工智能目的。该数据集包含超过543万独特的、去重的和规范化的MIDI文件,每个MIDI文件都转换为正确的MIDI格式规范并进行了完整性检查。数据集经过两次去重,一次使用md5哈希,一次使用音高-贴图计数。此外,还从所有MIDI文件中收集了广泛的元数据。该数据集还附带了一个定制设计的GPU加速搜索和过滤代码。

The Godzilla MIDI Dataset is a massive, comprehensive, normalized, and searchable MIDI dataset designed for Music Information Retrieval (MIR) and symbolic music artificial intelligence research. This dataset contains over 5.43 million unique, deduplicated, and normalized MIDI files, each of which has been converted to comply with official MIDI format specifications and subjected to integrity verification. The dataset has undergone two rounds of deduplication: one utilizing MD5 hashing, and the other employing pitch-map counting. Additionally, extensive metadata has been collected from all included MIDI files. The dataset also comes with custom-designed, GPU-accelerated search and filtering code.
创建时间:
2025-04-29
原始信息汇总

Godzilla MIDI Dataset 概述

基本描述

  • 许可证: cc-by-nc-sa-4.0
  • 语言: 英语 (en)
  • 标签: Godzilla, MIDI, MIDI dataset, MIDI music, giant, raw, searchable, comprehensive, music, music ai, MIR
  • 数据集名称: godzillamididataset
  • 规模: 1M<n<10M
  • 任务类别: audio-classification

数据集特点

  1. 规模与质量: 包含超过543万条唯一、去重且标准化的MIDI文件。
  2. 格式规范: 所有MIDI文件均转换为标准MIDI格式并通过完整性检查。
  3. 去重处理: 通过md5哈希和音高-音色计数两次去重。
  4. 元数据: 收集了所有MIDI文件的广泛且全面的元数据。
  5. 搜索功能: 提供定制化且高度优化的GPU加速搜索和过滤代码。

安装方式

基础安装

sh !pip install --upgrade pip !pip install --upgrade setuptools

CPU专用安装

sh !pip install -U godzillamididataset

GPU加速安装

sh !pip install -U godzillamididataset[gpu]

可选包

  • 快速并行提取模块: sh !sudo apt update -y !sudo apt install -y p7zip-full !sudo apt install -y pigz

  • 音频渲染模块: sh !sudo apt update -y !sudo apt install fluidsynth

数据集结构

Godzilla-MIDI-Dataset/ ├── ARTWORK/ ├── CODE/ ├── DATA/ │ ├── Averages/ │ ├── Basic Features/ │ ├── Files Lists/ │ ├── Identified MIDIs/ │ ├── Metadata/ │ ├── Mono Melodies/ │ ├── Pitches Patches Counts/ │ ├── Pitches Sums/ │ ├── Signatures/ │ └── Text Captions/ ├── MIDIs/ └── SOUNDFONTS/

元数据信息

  • Averages: 包含无鼓音符、音符与鼓、无音符鼓三组的平均值。
  • Basic Features: 包含111个指标的字典,适用于音乐分类和分析。
  • Files Lists: 提供MIDI文件的哈希和路径列表。
  • Identified MIDIs: 包含已识别的MIDI艺术家、标题和流派信息。
  • Metadata: 包含所有MIDI文件的原始元数据。
  • Mono Melodies: 包含单音旋律的MIDI信息。
  • Pitches Patches Counts: 包含所有MIDI的音高-音色计数。
  • Pitches Sums: 包含所有MIDI的音高总和。
  • Signatures: 包含每个MIDI的完整签名(577特征)和基础签名(392特征)。
  • Text Captions: 包含每个MIDI的详细文本描述。

引用

bibtex @misc{GodzillaMIDIDataset2025, title = {Godzilla MIDI Dataset: Enormous, comprehensive, normalized and searchable MIDI dataset for MIR and symbolic music AI purposes}, author = {Alex Lev}, publisher = {Project Los Angeles / Tegridy Code}, year = {2025}, url = {https://huggingface.co/datasets/projectlosangeles/Godzilla-MIDI-Dataset}

搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索(MIR)和符号音乐人工智能领域,Godzilla-MIDI-Dataset以其庞大的规模和精细的处理流程脱颖而出。该数据集通过严格的去重和标准化流程构建,首先基于MD5哈希值进行初步去重,随后通过音高-音色组合计数进行二次筛选,确保每首MIDI文件的唯一性。所有MIDI文件均经过格式规范转换和完整性校验,并附带有从原始文件中提取的丰富元数据。这一构建过程不仅保证了数据质量,还为后续的深度分析和应用奠定了坚实基础。
使用方法
对于研究者而言,Godzilla-MIDI-Dataset提供了完善的工具链和清晰的接口规范。数据集支持CPU和GPU两种运算模式,其中GPU加速能显著提升搜索效率。使用前需通过pip安装相应软件包,数据集下载后可通过内置函数进行解压和加载。典型使用流程包括:下载数据集、加载特征签名、预计算特征矩阵,最后执行搜索或过滤操作。数据集还提供音频渲染等扩展功能,但需要额外安装流体合成器等依赖项。这种模块化设计使得不同计算环境下的研究者都能充分利用这一宝贵资源。
背景与挑战
背景概述
Godzilla-MIDI-Dataset是由Project Los Angeles和Tegridy Code于2025年推出的一个大规模、标准化且可搜索的MIDI数据集,旨在支持音乐信息检索(MIR)和符号音乐人工智能研究。该数据集由Alex Lev主导开发,涵盖了超过543万首经过去重和标准化的MIDI文件,每首文件均经过格式规范转换和完整性校验。其核心研究问题聚焦于如何通过高效的数据处理与丰富的元数据支持,提升音乐生成、分类及分析的性能。该数据集以其规模和多样性,为音乐人工智能领域提供了重要的基础资源,推动了符号音乐处理技术的发展。
当前挑战
Godzilla-MIDI-Dataset面临的挑战主要体现在两方面:领域问题方面,该数据集致力于解决音乐信息检索中的大规模MIDI数据匹配与分类问题,但如何在高维度特征空间中实现高效搜索与精准匹配仍具挑战性;构建过程方面,数据集需处理海量MIDI文件的去重、标准化及元数据提取,技术复杂度较高,且对计算资源(如GPU显存和内存)的需求极为严苛,例如完整搜索需至少80GB GPU显存或128GB内存。此外,确保数据多样性与质量平衡,以及优化跨平台兼容性,亦是构建过程中的关键难点。
常用场景
经典使用场景
在音乐信息检索(MIR)和符号音乐人工智能研究领域,Godzilla-MIDI-Dataset以其海量且标准化的MIDI数据成为关键资源。该数据集广泛应用于音乐生成模型的训练与评估,特别是在基于深度学习的自动作曲系统中,研究者通过其丰富的音乐特征和元数据,能够构建复杂的旋律生成与和声分析模型。
解决学术问题
该数据集有效解决了音乐人工智能领域的数据稀缺与标准化难题。通过提供超过540万条去重且规范化的MIDI文件,研究者能够突破传统小规模数据集的限制,开展更可靠的统计分析与模型训练。其丰富的音乐特征标注为音高模式分析、节奏建模等基础研究提供了高质量数据支撑,显著提升了音乐结构理解与生成任务的学术研究水平。
实际应用
在工业应用层面,该数据集为智能音乐创作助手、游戏配乐系统等商业化产品提供了核心数据支持。其内置的GPU加速搜索功能使得音乐版权识别、风格匹配等实际业务场景能够高效实施。音乐教育领域亦可利用其结构化数据开发智能作曲教学系统,实现个性化学习路径规划。
数据集最近研究
最新研究方向
在音乐信息检索(MIR)和符号音乐人工智能领域,Godzilla-MIDI-Dataset以其海量、去重和标准化的MIDI数据成为研究热点。该数据集包含超过543万首独特的MIDI文件,每首文件均经过格式规范和完整性检查,为音乐生成模型和音乐分析算法提供了丰富的训练素材。前沿研究主要聚焦于如何利用其优化的GPU加速搜索和过滤代码,提升大规模音乐数据的处理效率。此外,数据集附带的文本描述和元数据为跨模态音乐生成(如文本到音乐生成)和音乐分类任务提供了新的可能性。这一数据集的推出,显著推动了符号音乐AI的研究进程,为音乐生成、风格迁移和音乐情感分析等任务奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作