ntrc_lakh_midi

Hugging Face2025-08-06 更新2025-08-07 收录

下载链接：

https://huggingface.co/datasets/nintorac/ntrc_lakh_midi

下载链接

链接失效反馈

官方服务：

资源简介：

NTRC Lakh MIDI 数据集是一个经过意见筛选、结构化和轻度清洗的Lakh MIDI数据集版本，转换为现代数据工程实践的数据Vault 2.0模型。该数据集包含了176,581个唯一的MIDI文件，其中45,129个文件与Million Song Dataset中的条目匹配并对应。数据集采用Data Vault 2.0方法论进行结构化，适用于音乐信息检索研究和分析。

创建时间：

2025-08-04

原始信息汇总

NTRC Lakh MIDI 数据集概述

数据集基本信息

许可证: CC-BY 4.0
任务类别: 音频分类、音频到音频
标签: MIDI、音乐、音频特征、百万歌曲数据集、数据仓库
规模: 100K < n < 1M

数据集描述

基于Colin Raffel的Lakh MIDI数据集构建
包含176,581个唯一MIDI文件，其中45,129个与百万歌曲数据集条目匹配对齐
采用Data Vault 2.0模型进行结构化处理

数据层结构

银层（Silver Layer）

枢纽表（Hubs）:
- hub_track.parquet: MusicBrainz曲目
- hub_artist.parquet: 艺术家信息
- hub_release.parquet: 7digital发行版
- hub_midi_file.parquet: 按MD5哈希的MIDI文件
- hub_midi_source.parquet: 源文件路径
- hub_key_signature.parquet: 音乐调号
- hub_mode.parquet: 音乐模式
链接表（Links）:
- link_track_midi.parquet: 曲目-MIDI匹配
- link_track_artist.parquet: 曲目-艺术家关系
- link_track_release.parquet: 曲目-发行版关系
- link_artist_similar.parquet: 艺术家相似关系
- link_midi_source.parquet: MIDI-源路径映射
卫星表（Satellites）:
- sat_track/: 曲目详情和音频分析
- sat_artist.parquet: 艺术家元数据
- sat_release.parquet: 发行信息
- sat_midi_file/: MIDI文件内容和大小
- 其他描述性数据表

金层（Gold Layer）

mart_artist_profile_sample.parquet: 艺术家档案样本
mart_track_analytics_sample.parquet: 曲目分析样本
mart_musical_features_sample.parquet: 音乐特征样本

数据质量特性

去重处理
引用完整性保证
分区存储
全面测试确保一致性和完整性

技术细节

格式: Apache Parquet（snappy压缩）
架构: Data Vault 2.0
处理工具: dlt、dbt、DuckDB
分区策略: 按哈希键首字符分区

原始数据集信息

176,581个唯一MIDI文件
45,129个匹配文件
包含Echo Nest音频分析特征
包含MusicBrainz标签和相似度数据

引用与许可

许可证: CC-BY 4.0
必引文献:
- Raffel, C. (2016). Learning-Based Methods for Comparing Sequences
- Bertin-Mahieux, T., et al. (2011). The Million Song Dataset

处理流程

使用dlt进行数据提取
使用dbt进行数据转换和测试
使用DuckDB作为分析数据库引擎
采用Data Vault 2.0方法进行数据建模

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，ntrc_lakh_midi数据集通过现代数据工程技术对原始Lakh MIDI数据集进行了深度重构。该数据集采用Data Vault 2.0建模方法论，将17万余个MIDI文件及其元数据转化为三层架构：青铜层存储原始提取数据，白银层进行清洗去重和结构化处理，黄金层则提供适合机器学习流程的规范化视图。整个构建过程运用dlt进行数据提取，dbt实现数据转换与测试，DuckDB作为分析引擎，确保数据质量与可扩展性。

使用方法

研究人员可通过DuckDB远程连接方式直接访问数据库层进行查询分析，无需本地部署完整数据。针对机器学习应用，黄金层的规范化视图可直接接入训练流程，提供艺术家画像、音轨分析等特征数据。数据集支持复杂的关系查询，如艺术家相似度分析、音轨特征提取等，同时保留原始MIDI文件的音乐符号信息，为音频分类、音乐生成等任务提供丰富的数据支撑。

背景与挑战

背景概述

音乐信息检索领域长期面临符号音乐数据标准化处理的挑战，ntrc_lakh_midi数据集作为Lakh MIDI数据集的现代化重构版本，由Nintorac团队基于Colin Raffel博士2016年创建的原始数据集进行深度加工。该数据集采用数据仓储2.0模型架构，将17.6万首MIDI文件与百万歌曲数据库的元数据进行对齐，为音乐生成算法、音频特征分析及跨模态音乐研究提供了结构化的基准数据。其创新性的分层存储设计显著提升了音乐计算研究的可复现性与数据处理效率。

当前挑战

该数据集核心解决音乐信息检索中符号音乐与音频数据跨模态匹配的复杂性问题，具体挑战包括MIDI文件与音频特征的时序对齐精度、多源异构数据的标准化清洗，以及音乐元数据的语义一致性维护。在构建过程中面临原始数据版权信息缺失导致的溯源困难、海量MIDI文件的结构化转换技术瓶颈，以及保持音乐理论特征（调式、节奏等）在数据转换过程中的完整性等工程挑战。

常用场景

经典使用场景

在音乐信息检索领域，ntrc_lakh_midi数据集为研究者提供了结构化的MIDI符号音乐分析基础。该数据集通过Data Vault 2.0模型将原始MIDI文件转化为银层和金层的规范化数据，支持音乐特征提取、旋律模式分析和和弦进程研究。研究者可基于金层的mart_track_analytics_sample表进行大规模音乐统计分析，或通过银层的hub_key_signature和hub_mode表探索调性与调式的分布规律，为计算音乐学提供标准化数据支撑。

解决学术问题

该数据集有效解决了音乐信息检索中符号音乐数据缺乏标准化建模的学术难题。通过将17万余个MIDI文件与百万歌曲数据集进行对齐，提供了音轨-艺术家-发行版的多维关联数据，支持音乐匹配质量评估、艺术家风格相似性计算等研究。其银层卫星表中的时间序列数组和音频分析特征，为音乐结构分析、自动转录算法验证提供了可靠基准，显著提升了音乐计算研究的可重复性与可比性。

实际应用

在实际应用层面，ntrc_lakh_midi数据集为音乐推荐系统和智能作曲工具开发提供了底层数据支持。基于link_artist_similar和sat_artist_terms表构建的艺术家相似性网络，可增强流媒体平台的推荐算法准确性。音乐科技公司可利用金层的mart_musical_features_sample表训练生成模型，开发自动伴奏生成或风格迁移工具。教育领域则可借助标准化调性数据设计音乐理论教学辅助系统。

数据集最近研究