sousa
收藏Hugging Face2026-01-27 更新2026-01-28 收录
下载链接:
https://huggingface.co/datasets/zkeown/sousa
下载链接
链接失效反馈官方服务:
资源简介:
SOUSA(Synthetic Open Unified Snare Assessment)是一个大规模合成的鼓乐数据集,包含所有40种PAS(Percussive Arts Society)鼓乐基本功,用于训练机器学习模型进行鼓乐表演评估。数据集包含99,770个样本,总时长约138小时,涵盖100个玩家档案和4种技能等级(初学者、中级、高级、专业)。数据包括FLAC格式的音频文件(96 GB)和MIDI文件(78 MB),并提供了分层标签(击打、小节、练习级别)。数据集支持多种任务,如表演评估、技能分类、基本功识别、时间分析和音频到MIDI转录。数据分割基于玩家档案,确保模型能够泛化到未见过的玩家。数据集还包含详细的音频规格(44.1 kHz采样率,24位深度,单声道)和多种声音字体及增强预设。验证表明数据集符合运动控制研究的基准。
创建时间:
2026-01-26
原始信息汇总
SOUSA: Synthetic Open Unified Snare Assessment 数据集概述
数据集基本信息
- 数据集名称:SOUSA - Synthetic Open Unified Snare Assessment
- 发布者:Zak Keown
- 发布日期:2026年
- 许可协议:MIT License
- 任务类别:音频分类、自动语音识别
- 语言:英语
- 标签:音乐、鼓、打击乐、MIDI、音频、性能评估、合成数据、基本功
- 数据规模:10K<n<100K
数据集内容摘要
- 总样本数:99,770
- 音频文件:99,770个FLAC文件(96 GB)
- MIDI文件:19,954个(78 MB)
- 总时长:约138小时
- 涵盖的基本功:40种(全部PAS国际鼓基本功)
- 演奏者档案:100个
- 技能等级:4级(初学者、中级、高级、专业)
数据构成与划分
数据划分
| 划分 | 样本数 | 档案数 | 技能等级分布 |
|---|---|---|---|
| 训练集 | 67,806 | 68 | 初学者: 18, 中级: 23, 高级: 22, 专业: 5 |
| 验证集 | 13,000 | 13 | 初学者: 3, 中级: 5, 高级: 4, 专业: 1 |
| 测试集 | 18,964 | 19 | 初学者: 5, 中级: 6, 高级: 6, 专业: 2 |
数据文件
labels/samples.parquetlabels/strokes.parquetlabels/measures.parquetlabels/exercises.parquet
数据字段描述
样本级字段
sample_id:唯一标识符rudiment_slug:基本功名称tempo_bpm:演奏速度(60-180 BPM)skill_tier:玩家技能等级profile_id:唯一玩家档案IDsoundfont:音频合成音色库augmentation_preset:音频增强预设duration_sec:样本时长(秒)num_strokes:总击打次数split:数据划分
练习级评分(0-100分)
overall_score:综合表现分数timing_accuracy:击打与节拍网格的接近程度timing_consistency:计时误差的一致性tempo_stability:全程速度稳定性velocity_control:击打力度的一致性accent_differentiation:重音与轻击的区分清晰度hand_balance:左右手平衡
击打级标签
onset_sec:实际起始时间expected_onset_sec:预期(量化)起始时间timing_error_ms:与预期时间的偏差velocity:MIDI力度(0-127)hand:左手(L)或右手(R)articulation:击打类型
小节级标签
每小节的聚合统计数据。
涵盖的基本功类别
滚奏基本功(15种)
单跳滚奏、四连音单跳滚奏、七连音单跳滚奏、多跳滚奏、三跳滚奏、双跳开滚奏、五连音滚奏、六连音滚奏、七连音滚奏、九连音滚奏、十连音滚奏、十一连音滚奏、十三连音滚奏、十五连音滚奏、十七连音滚奏
复合跳基本功(5种)
单装饰音、双装饰音、三装饰音、装饰音-复合跳、单装饰音
装饰音基本功(12种)
装饰音、装饰音重音、装饰音轻击、装饰音提示、装饰音装饰音、装饰音-装饰音-复合跳、帕塔夫拉夫拉、瑞士军鼓三连音、反向装饰音轻击、装饰音拖曳、单装饰音磨坊、第25课
拖曳基本功(8种)
拖曳、单拖曳轻击、双拖曳轻击、拖曳装饰音 #1、拖曳装饰音 #2、单拖曳装饰音、单鼠鸣、双鼠鸣、三鼠鸣
玩家技能建模
| 技能等级 | 计时标准差 | 计时准确度 | 手部平衡 | 力度变异系数 |
|---|---|---|---|---|
| 专业 | 6.4 ms | 77.5 | 90.7 | 0.08 |
| 高级 | 14.4 ms | 59.9 | 89.0 | 0.14 |
| 中级 | 31.6 ms | 33.1 | 85.5 | 0.23 |
| 初学者 | 55.5 ms | 7.1 | 80.7 | 0.28 |
音频规格
- 格式:FLAC(无损)
- 采样率:44.1 kHz
- 位深度:24-bit
- 声道:单声道
音色库
douglasn:干净的套鼓音色fluidr3:FluidR3 GM套鼓generalu:GeneralUser GSmtpowerd:MT Power Drumsmarching:行进小军鼓
增强预设
cleanstudio:干声,近距离拾音practiceroom:小房间混响garage:中等房间,自然声学gym:大房间,更多混响marchingfield:户外/场地声学
支持的任务
- 性能评估:从音频/MIDI预测总体分数或特定技能维度
- 技能分类:将演奏分类到技能等级
- 基本功识别:识别正在演奏的基本功
- 计时分析:分析鼓演奏中的微计时偏差
- 音频到MIDI转录:训练模型转录鼓音频
数据集统计
按技能等级划分的计时误差
| 等级 | 平均值(ms) | 标准差(ms) |
|---|---|---|
| 专业 | 0.9 | 25.1 |
| 高级 | 1.7 | 36.7 |
| 中级 | 1.8 | 58.4 |
| 初学者 | 8.1 | 110.7 |
分数分布
| 指标 | 平均值 | 标准差 | 最小值 | 最大值 |
|---|---|---|---|---|
| 总体分数 | - | - | 0 | 100 |
| 计时准确度 | 38.4 | 30.5 | 0 | 90.4 |
| 手部平衡 | 85.8 | 9.0 | 36.4 | 100 |
| 力度控制 | - | - | 0 | 100 |
验证
- 数据完整性检查:14/14通过
- 文献基准:8/8在预期范围内
- 技能等级区分:具有统计学显著性(p < 0.001)
相关链接
- HuggingFace数据集页面:https://huggingface.co/datasets/zkeown/sousa
- GitHub仓库:https://github.com/zkeown/sousa
- 生成代码:https://github.com/zkeown/sousa
引用
bibtex @dataset{sousa2026, title={SOUSA: Synthetic Open Unified Snare Assessment}, author={Keown, Zak}, year={2026}, publisher={HuggingFace}, url={https://huggingface.co/datasets/zkeown/sousa} }
搜集汇总
数据集介绍

构建方式
在打击乐表演评估领域,SOUSA数据集的构建体现了对合成数据生成技术的深度应用。该数据集通过模拟不同技能层级鼓手的运动控制特征,生成了涵盖全部40种PAS国际鼓基本手法的演奏样本。具体构建过程包括基于流体合成器(FluidSynth)的多音色音频合成,结合了从练习垫到行进小军鼓等多种音源;同时,数据集引入了层次化的标注体系,在单次击打、小节和完整练习三个层面提供了精细的时序、力度及手法信息。此外,通过模拟房间声学、麦克风特性及动态处理等音频增强技术,确保了合成音频的逼真度与多样性。
特点
SOUSA数据集的核心特点在于其系统性的技能建模与丰富的多模态标注。数据集依据运动控制研究,构建了100个具有不同技能层级的虚拟演奏者档案,从初学者到专业鼓手,其演奏的时序偏差、力度控制及双手平衡度均呈现出符合实证研究的统计规律。数据样本总量接近十万,总时长约138小时,每段音频均配有对应的MIDI文件及多维度性能评分,如整体得分、时序准确性、力度控制等。数据划分采用基于演奏者档案的分层策略,确保模型能够泛化至未见过的演奏风格,而非记忆特定个体的表演模式。
使用方法
该数据集主要服务于基于机器学习的打击乐表演评估与研究。使用者可通过Hugging Face的`datasets`库便捷加载数据,并支持流式读取以应对大规模音频文件的内存挑战。数据集适用于多项任务,包括从音频或MIDI中预测演奏的整体评分或特定技能维度、对演奏进行技能层级分类、识别所演奏的具体基本手法、分析击打的微时序偏差,以及训练从鼓音频到MIDI的转录模型。研究人员可通过访问样本级的元数据、练习级的评分以及击打级和小节级的详细标签,进行多粒度的分析与模型训练。
背景与挑战
背景概述
在音乐信息检索与计算音乐学领域,对打击乐演奏性能进行客观评估一直是一项复杂且具有挑战性的任务。SOUSA数据集由研究人员Zak Keown于2026年创建并发布,旨在为机器学习模型提供一个大规模、高质量的合成数据资源,专门用于军鼓基本功的演奏评估。该数据集全面涵盖了国际打击乐艺术协会(PAS)定义的40种基本功,通过模拟从初学者到专业级别的不同演奏者技能剖面,生成了包含近十万个样本的音频与MIDI数据。其核心研究问题聚焦于如何利用合成数据来训练模型,以自动化地评估鼓手演奏的准确性、一致性、速度控制等多维度技能,从而为音乐教育、技能诊断和个性化反馈提供技术支持。该数据集的构建严格参考了运动控制领域的经典研究,确保了合成演奏特征的真实性与科学性,对推动智能音乐教学工具和表演分析系统的发展具有重要影响力。
当前挑战
SOUSA数据集致力于解决打击乐演奏自动评估这一领域问题的核心挑战,即如何从音频或MIDI信号中精确量化演奏者的技巧水平,包括微小的时序偏差、力度控制、重音清晰度及双手平衡等难以客观衡量的复杂维度。在数据集构建过程中,主要挑战在于如何生成既大规模又具备高度真实性的合成演奏数据。这需要精细地建模不同技能级别演奏者的运动控制特性,如时序误差的标准差和力度变异系数,并确保这些参数与现有运动控制研究文献的发现保持一致。同时,构建过程还需克服技术挑战,例如实现多层次标注(单次击打、小节、完整练习)、集成多种音源进行音频合成,以及应用复杂的音频增强策略来模拟不同的录音环境,从而保证生成数据的多样性和实用性,避免模型过拟合于单一的合成声学特征。
常用场景
经典使用场景
在打击乐教育与音乐信息检索领域,SOUSA数据集为机器学习模型提供了标准化的评估基准。其核心应用场景在于自动化打击乐演奏评估,通过合成数据模拟不同技能水平的鼓手演奏40种PAS标准基本功,模型可分析音频与MIDI数据中的时序精度、力度控制等维度,实现对演奏质量的客观评分。这一场景广泛应用于智能音乐教学系统,为学习者提供即时反馈,辅助技能提升。
衍生相关工作
围绕SOUSA数据集衍生的经典工作主要集中在跨模态音乐分析领域。例如,基于其层次化标注结构的研究提出了多任务学习框架,同时完成基本功识别与技能分类任务;另有工作利用其时序误差数据改进音频到MIDI的转录模型,提升对细微演奏差异的捕捉能力。这些研究进一步拓展至通用乐器演奏评估,为其他乐器的自动化性能分析提供了方法论参考。
数据集最近研究
最新研究方向
在打击乐教育技术领域,SOUSA数据集正推动机器学习模型在鼓手演奏评估方面的前沿探索。该数据集通过合成生成的40种国际打击乐艺术协会鼓槌基本功演奏音频与MIDI数据,为基于深度学习的自动技能评估系统提供了大规模、多层次的标注资源。当前研究热点聚焦于利用其分层标签结构,开发端到端的神经网络模型,以实现从原始音频中直接预测演奏者的综合得分、时序精度及手部平衡等细粒度技能维度。这一方向与音乐教育智能化、远程艺术测评等实际应用紧密结合,通过模拟不同技能等级演奏者的运动控制特征,为构建公平、可扩展的虚拟鼓手教练系统奠定了数据基础,显著提升了算法对未见演奏者风格的泛化能力,对推动个性化音乐教育技术发展具有重要影响。
以上内容由遇见数据集搜集并总结生成



