ntrc_lakh_midi
收藏Hugging Face2025-08-06 更新2025-08-07 收录
下载链接:
https://huggingface.co/datasets/nintorac/ntrc_lakh_midi
下载链接
链接失效反馈官方服务:
资源简介:
NTRC Lakh MIDI 数据集是一个经过意见筛选、结构化和轻度清洗的Lakh MIDI数据集版本,转换为现代数据工程实践的数据Vault 2.0模型。该数据集包含了176,581个唯一的MIDI文件,其中45,129个文件与Million Song Dataset中的条目匹配并对应。数据集采用Data Vault 2.0方法论进行结构化,适用于音乐信息检索研究和分析。
创建时间:
2025-08-04
原始信息汇总
NTRC Lakh MIDI 数据集概述
数据集基本信息
- 许可证: CC-BY 4.0
- 任务类别: 音频分类、音频到音频
- 标签: MIDI、音乐、音频特征、百万歌曲数据集、数据仓库
- 规模: 100K < n < 1M
数据集描述
- 基于Colin Raffel的Lakh MIDI数据集构建
- 包含176,581个唯一MIDI文件,其中45,129个与百万歌曲数据集条目匹配对齐
- 采用Data Vault 2.0模型进行结构化处理
数据层结构
银层(Silver Layer)
-
枢纽表(Hubs):
hub_track.parquet: MusicBrainz曲目hub_artist.parquet: 艺术家信息hub_release.parquet: 7digital发行版hub_midi_file.parquet: 按MD5哈希的MIDI文件hub_midi_source.parquet: 源文件路径hub_key_signature.parquet: 音乐调号hub_mode.parquet: 音乐模式
-
链接表(Links):
link_track_midi.parquet: 曲目-MIDI匹配link_track_artist.parquet: 曲目-艺术家关系link_track_release.parquet: 曲目-发行版关系link_artist_similar.parquet: 艺术家相似关系link_midi_source.parquet: MIDI-源路径映射
-
卫星表(Satellites):
sat_track/: 曲目详情和音频分析sat_artist.parquet: 艺术家元数据sat_release.parquet: 发行信息sat_midi_file/: MIDI文件内容和大小- 其他描述性数据表
金层(Gold Layer)
mart_artist_profile_sample.parquet: 艺术家档案样本mart_track_analytics_sample.parquet: 曲目分析样本mart_musical_features_sample.parquet: 音乐特征样本
数据质量特性
- 去重处理
- 引用完整性保证
- 分区存储
- 全面测试确保一致性和完整性
技术细节
- 格式: Apache Parquet(snappy压缩)
- 架构: Data Vault 2.0
- 处理工具: dlt、dbt、DuckDB
- 分区策略: 按哈希键首字符分区
原始数据集信息
- 176,581个唯一MIDI文件
- 45,129个匹配文件
- 包含Echo Nest音频分析特征
- 包含MusicBrainz标签和相似度数据
引用与许可
- 许可证: CC-BY 4.0
- 必引文献:
- Raffel, C. (2016). Learning-Based Methods for Comparing Sequences
- Bertin-Mahieux, T., et al. (2011). The Million Song Dataset
处理流程
- 使用dlt进行数据提取
- 使用dbt进行数据转换和测试
- 使用DuckDB作为分析数据库引擎
- 采用Data Vault 2.0方法进行数据建模
搜集汇总
数据集介绍

构建方式
在音乐信息检索领域,ntrc_lakh_midi数据集通过现代数据工程技术对原始Lakh MIDI数据集进行了深度重构。该数据集采用Data Vault 2.0建模方法论,将17万余个MIDI文件及其元数据转化为三层架构:青铜层存储原始提取数据,白银层进行清洗去重和结构化处理,黄金层则提供适合机器学习流程的规范化视图。整个构建过程运用dlt进行数据提取,dbt实现数据转换与测试,DuckDB作为分析引擎,确保数据质量与可扩展性。
使用方法
研究人员可通过DuckDB远程连接方式直接访问数据库层进行查询分析,无需本地部署完整数据。针对机器学习应用,黄金层的规范化视图可直接接入训练流程,提供艺术家画像、音轨分析等特征数据。数据集支持复杂的关系查询,如艺术家相似度分析、音轨特征提取等,同时保留原始MIDI文件的音乐符号信息,为音频分类、音乐生成等任务提供丰富的数据支撑。
背景与挑战
背景概述
音乐信息检索领域长期面临符号音乐数据标准化处理的挑战,ntrc_lakh_midi数据集作为Lakh MIDI数据集的现代化重构版本,由Nintorac团队基于Colin Raffel博士2016年创建的原始数据集进行深度加工。该数据集采用数据仓储2.0模型架构,将17.6万首MIDI文件与百万歌曲数据库的元数据进行对齐,为音乐生成算法、音频特征分析及跨模态音乐研究提供了结构化的基准数据。其创新性的分层存储设计显著提升了音乐计算研究的可复现性与数据处理效率。
当前挑战
该数据集核心解决音乐信息检索中符号音乐与音频数据跨模态匹配的复杂性问题,具体挑战包括MIDI文件与音频特征的时序对齐精度、多源异构数据的标准化清洗,以及音乐元数据的语义一致性维护。在构建过程中面临原始数据版权信息缺失导致的溯源困难、海量MIDI文件的结构化转换技术瓶颈,以及保持音乐理论特征(调式、节奏等)在数据转换过程中的完整性等工程挑战。
常用场景
经典使用场景
在音乐信息检索领域,ntrc_lakh_midi数据集为研究者提供了结构化的MIDI符号音乐分析基础。该数据集通过Data Vault 2.0模型将原始MIDI文件转化为银层和金层的规范化数据,支持音乐特征提取、旋律模式分析和和弦进程研究。研究者可基于金层的mart_track_analytics_sample表进行大规模音乐统计分析,或通过银层的hub_key_signature和hub_mode表探索调性与调式的分布规律,为计算音乐学提供标准化数据支撑。
解决学术问题
该数据集有效解决了音乐信息检索中符号音乐数据缺乏标准化建模的学术难题。通过将17万余个MIDI文件与百万歌曲数据集进行对齐,提供了音轨-艺术家-发行版的多维关联数据,支持音乐匹配质量评估、艺术家风格相似性计算等研究。其银层卫星表中的时间序列数组和音频分析特征,为音乐结构分析、自动转录算法验证提供了可靠基准,显著提升了音乐计算研究的可重复性与可比性。
实际应用
在实际应用层面,ntrc_lakh_midi数据集为音乐推荐系统和智能作曲工具开发提供了底层数据支持。基于link_artist_similar和sat_artist_terms表构建的艺术家相似性网络,可增强流媒体平台的推荐算法准确性。音乐科技公司可利用金层的mart_musical_features_sample表训练生成模型,开发自动伴奏生成或风格迁移工具。教育领域则可借助标准化调性数据设计音乐理论教学辅助系统。
数据集最近研究
最新研究方向
在音乐信息检索领域,ntrc_lakh_midi数据集正推动符号音乐分析的前沿探索。该数据集通过Data Vault 2.0模型重构了Lakh MIDI数据集,为音乐生成模型提供了高质量的结构化训练数据。当前研究聚焦于跨模态音乐表征学习,利用其丰富的元数据实现MIDI序列与音频特征的深度对齐。随着生成式人工智能在音乐创作领域的突破,该数据集在音乐风格迁移、自动编曲等方向展现出重要价值,为构建下一代音乐人工智能系统奠定了数据基石。
以上内容由遇见数据集搜集并总结生成



