POP909-CL Dataset
收藏github2025-10-08 更新2025-10-19 收录
下载链接:
https://github.com/AndyWeasley2004/POP909-CL-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
POP909-CL是原始POP909数据集的和弦标注扩展,旨在支持和弦识别、自动伴奏和音乐理论研究。该数据集结合了专家评审的和弦标注与清理后的MIDI文件,同时保持与POP909时间网格的向后兼容性。
POP909-CL is a chord annotation extension of the original POP909 dataset, designed to support chord recognition, automatic accompaniment and music theory research. This dataset combines expert-reviewed chord annotations and cleaned MIDI files, while maintaining backward compatibility with the POP909 time grid.
创建时间:
2025-10-07
原始信息汇总
POP909-CL 数据集概述
数据集简介
POP909-CL 是基于原始 POP909 语料库的和弦标注扩展数据集,旨在支持和弦识别、自动伴奏和音乐理论研究。该数据集结合了专家评审的和弦标注与经过清理、元数据校正的 MIDI 文件,同时保持与 POP909 时间网格的向后兼容性。
主要改进
- 40.6% 的未对齐起始节拍得到校正
- 14.2% 的缺失调号变更得到补充
- 2.6% 的错误拍号得到修正
- 约 35% 的和弦标签错误得到纠正
基本统计
- 总曲目数:909 首流行歌曲
- 数据格式:带对齐标注的 MIDI 文件
- 标注内容:和弦、节拍、调号、拍号
- 质量保证:经过专业评审和校正
数据集结构
目录说明
- POP909-24-bin-midi/:原始 POP909 发布版本,每拍量化为 24 个区间,用于与先前基准语料库的参考和可复现性
- POP909_chord_annotated/:原始专家标注的 MIDI 文件,保留在整理过程中使用的附加算法和弦轨道
- POP909_chord_annotated_cleaned/:清理后的标注,轨道 1 包含乐谱,轨道 2 包含校正后的和弦进行,所有算法生成的和弦轨道已被移除
- POP909_processed/:最终整理的文件,包含一致的元数据(时间/调号、起始节拍对齐、速度合理性检查),推荐用于大多数下游任务
支持文件
- midi_operations.json:在整理过程中应用的每个手动编辑的机器可读日志
- process.py:可复现的处理脚本,用于重新生成处理后的数据集
处理流程
- 从
POP909_chord_annotated/中的原始专家标注文件开始 - 移除算法和弦轨道并规范化通道分配 →
POP909_chord_annotated_cleaned/ - 使用
process.py应用midi_operations.json中记录的操作,校正拍号、添加调号变更并对齐全局起始节拍 →POP909_processed
标注规范
- 轨道 1(通道 0)为乐谱(旋律、伴奏和节奏组合在一个轨道中)
- 轨道 2(通道 1)包含与节拍对齐的人工校正和弦符号
- 文件遵循 POP909 24 网格量化,确保与现有分析的互操作性
- 时间签名和调号变更事件被明确编码
使用建议
- 和弦识别建模建议使用
POP909_processed/或POP909_processed.zip - 与旧版 POP909 基准比较时,参考
POP-24-bin-midi/ - 研究复现标注决策可查阅
midi_operations.json
已知问题
- 518.mid:左右手在转录和量化后存在未对齐的下拍,因此保留算法提取的标签
- 620.mid:左右手可能存在未对齐
引用信息
如需使用此资源,请引用此整理版本和原始 POP909 论文。
搜集汇总
数据集介绍

构建方式
在音乐信息检索领域,POP909-CL数据集的构建体现了严谨的学术规范。该数据集基于原始POP909语料库,通过专家人工标注与自动化清洗相结合的方式完成构建。具体流程从原始专家标注的MIDI文件出发,首先移除算法生成的和弦轨道并统一通道分配,随后依据midi_operations.json中记录的编辑操作,系统性地修正时间签名、补充调号变化并对齐全局起始节拍。整个处理过程通过可复现的Python脚本实现,最终生成包含标准化元数据的精校版本。
特点
作为和弦标注领域的专业数据集,POP909-CL展现出多重技术特性。其核心价值在于对原始数据进行了全面质量提升:修正了40.6%的节拍对齐错误,补充了14.2%缺失的调号变化,并纠正了约35%的和弦标注误差。数据集采用分层存储架构,既保留原始24分位量化版本以确保向后兼容,又提供经过元数据增强的精校版本。特别值得关注的是,所有人工编辑操作均通过机器可读的日志文件完整记录,为研究可复现性提供了坚实基础。
使用方法
针对不同研究需求,该数据集提供了明确的使用指引。进行和弦识别建模时,建议优先采用POP909_processed目录下的精校文件,这些文件经过全面的元数据校正与人工验证。若需与原始POP909基准进行比较研究,则应参照POP-24-bin-midi目录的量化版本。对于希望深入理解标注决策的研究者,可通过midi_operations.json查阅每首曲目的具体变换记录。数据集严格遵循24分位量化标准,确保与现有分析工具的兼容性,同时通过独立的音轨分别承载乐谱信息与和弦进行。
背景与挑战
背景概述
POP909-CL数据集作为POP909语料库的和弦标注扩展,由音乐信息检索领域研究团队于2025年发布,旨在推动和弦识别、自动伴奏及音乐理论研究的深度发展。该数据集通过整合专家审核的和弦标注与经过元数据校正的MIDI文件,构建起具有时序对齐特性的高质量音乐资源,其核心研究问题聚焦于符号化音乐表示中和弦边界的精确识别与建模,为音乐结构分析与生成任务提供了关键数据支撑。
当前挑战
在解决流行音乐和弦识别这一领域问题时,该数据集面临和弦边界模糊性、多声部对齐复杂性以及音乐理论规则与听觉感知差异性的核心挑战。构建过程中需克服原始MIDI文件的和弦标签错误率高达35%、节拍对齐偏差达40.6%等技术难题,同时需通过人工校验与算法修正相结合的方式,确保时间记号与调性变更事件的精确编码,维持与既有研究基准的兼容性。
常用场景
经典使用场景
在音乐信息检索领域,POP909-CL数据集凭借其精确的和弦标注与结构化的MIDI文件,成为和弦识别研究的基准工具。该数据集通过专业人工校对修正了原始版本中40.6%的节拍对齐错误与35%的和弦标签误差,为算法模型提供了可靠的训练基础。研究者可基于其24分位量化网格与双轨道设计,构建端到端的和弦边界检测系统,显著提升了流行音乐和弦分析的准确性。
衍生相关工作
该数据集的发布催生了多项创新研究,其中边界感知符号和弦识别模型BACHI通过掩码迭代解码机制,在POP909-CL上实现了和弦边界检测的突破。后续研究则基于其多轨标注特性开发出旋律-和弦联合生成模型,部分团队还利用其操作日志构建了音乐元数据纠错管道,形成了从基础标注到高级生成的完整研究脉络。
数据集最近研究
最新研究方向
在流行音乐计算分析领域,POP909-CL数据集通过引入边界感知的和弦识别机制,显著推动了符号音乐理解的前沿探索。该数据集作为POP909语料库的和弦标注扩展,不仅修正了原始版本中约40.6%的节拍对齐误差与35%的和弦标签错误,更通过《BACHI》论文提出的掩码迭代解码框架,为流行与古典音乐的边界敏感和弦分析建立了新范式。当前研究热点集中于利用该数据集的多轨MIDI结构与精细化元数据,开发跨模态音乐生成模型与智能伴奏系统,其严谨的专家标注体系与可复现的处理流程,正成为音乐信息检索领域验证和弦识别算法性能的核心基准。
以上内容由遇见数据集搜集并总结生成



