sousa

Hugging Face2026-01-27 更新2026-01-28 收录

下载链接：

https://huggingface.co/datasets/zkeown/sousa

下载链接

链接失效反馈

官方服务：

资源简介：

SOUSA（Synthetic Open Unified Snare Assessment）是一个大规模合成的鼓乐数据集，包含所有40种PAS（Percussive Arts Society）鼓乐基本功，用于训练机器学习模型进行鼓乐表演评估。数据集包含99,770个样本，总时长约138小时，涵盖100个玩家档案和4种技能等级（初学者、中级、高级、专业）。数据包括FLAC格式的音频文件（96 GB）和MIDI文件（78 MB），并提供了分层标签（击打、小节、练习级别）。数据集支持多种任务，如表演评估、技能分类、基本功识别、时间分析和音频到MIDI转录。数据分割基于玩家档案，确保模型能够泛化到未见过的玩家。数据集还包含详细的音频规格（44.1 kHz采样率，24位深度，单声道）和多种声音字体及增强预设。验证表明数据集符合运动控制研究的基准。

创建时间：

2026-01-26

原始信息汇总

SOUSA: Synthetic Open Unified Snare Assessment 数据集概述

数据集基本信息

数据集名称：SOUSA - Synthetic Open Unified Snare Assessment
发布者：Zak Keown
发布日期：2026年
许可协议：MIT License
任务类别：音频分类、自动语音识别
语言：英语
标签：音乐、鼓、打击乐、MIDI、音频、性能评估、合成数据、基本功
数据规模：10K<n<100K

数据集内容摘要

总样本数：99,770
音频文件：99,770个FLAC文件（96 GB）
MIDI文件：19,954个（78 MB）
总时长：约138小时
涵盖的基本功：40种（全部PAS国际鼓基本功）
演奏者档案：100个
技能等级：4级（初学者、中级、高级、专业）

数据构成与划分

数据划分

划分	样本数	档案数	技能等级分布
训练集	67,806	68	初学者: 18, 中级: 23, 高级: 22, 专业: 5
验证集	13,000	13	初学者: 3, 中级: 5, 高级: 4, 专业: 1
测试集	18,964	19	初学者: 5, 中级: 6, 高级: 6, 专业: 2

数据文件

labels/samples.parquet
labels/strokes.parquet
labels/measures.parquet
labels/exercises.parquet

数据字段描述

样本级字段

sample_id：唯一标识符
rudiment_slug：基本功名称
tempo_bpm：演奏速度（60-180 BPM）
skill_tier：玩家技能等级
profile_id：唯一玩家档案ID
soundfont：音频合成音色库
augmentation_preset：音频增强预设
duration_sec：样本时长（秒）
num_strokes：总击打次数
split：数据划分

练习级评分（0-100分）

overall_score：综合表现分数
timing_accuracy：击打与节拍网格的接近程度
timing_consistency：计时误差的一致性
tempo_stability：全程速度稳定性
velocity_control：击打力度的一致性
accent_differentiation：重音与轻击的区分清晰度
hand_balance：左右手平衡

击打级标签

onset_sec：实际起始时间
expected_onset_sec：预期（量化）起始时间
timing_error_ms：与预期时间的偏差
velocity：MIDI力度（0-127）
hand：左手（L）或右手（R）
articulation：击打类型

小节级标签

每小节的聚合统计数据。

涵盖的基本功类别

滚奏基本功（15种）

单跳滚奏、四连音单跳滚奏、七连音单跳滚奏、多跳滚奏、三跳滚奏、双跳开滚奏、五连音滚奏、六连音滚奏、七连音滚奏、九连音滚奏、十连音滚奏、十一连音滚奏、十三连音滚奏、十五连音滚奏、十七连音滚奏

复合跳基本功（5种）

单装饰音、双装饰音、三装饰音、装饰音-复合跳、单装饰音

装饰音基本功（12种）

装饰音、装饰音重音、装饰音轻击、装饰音提示、装饰音装饰音、装饰音-装饰音-复合跳、帕塔夫拉夫拉、瑞士军鼓三连音、反向装饰音轻击、装饰音拖曳、单装饰音磨坊、第25课

拖曳基本功（8种）

拖曳、单拖曳轻击、双拖曳轻击、拖曳装饰音 #1、拖曳装饰音 #2、单拖曳装饰音、单鼠鸣、双鼠鸣、三鼠鸣

玩家技能建模

技能等级	计时标准差	计时准确度	手部平衡	力度变异系数
专业	6.4 ms	77.5	90.7	0.08
高级	14.4 ms	59.9	89.0	0.14
中级	31.6 ms	33.1	85.5	0.23
初学者	55.5 ms	7.1	80.7	0.28

音频规格

格式：FLAC（无损）
采样率：44.1 kHz
位深度：24-bit
声道：单声道

音色库

douglasn：干净的套鼓音色
fluidr3：FluidR3 GM套鼓
generalu：GeneralUser GS
mtpowerd：MT Power Drums
marching：行进小军鼓

增强预设

cleanstudio：干声，近距离拾音
practiceroom：小房间混响
garage：中等房间，自然声学
gym：大房间，更多混响
marchingfield：户外/场地声学

支持的任务

性能评估：从音频/MIDI预测总体分数或特定技能维度
技能分类：将演奏分类到技能等级
基本功识别：识别正在演奏的基本功
计时分析：分析鼓演奏中的微计时偏差
音频到MIDI转录：训练模型转录鼓音频

数据集统计

按技能等级划分的计时误差

等级	平均值（ms）	标准差（ms）
专业	0.9	25.1
高级	1.7	36.7
中级	1.8	58.4
初学者	8.1	110.7

分数分布

指标	平均值	标准差	最小值	最大值
总体分数	-	-	0	100
计时准确度	38.4	30.5	0	90.4
手部平衡	85.8	9.0	36.4	100
力度控制	-	-	0	100

验证

数据完整性检查：14/14通过
文献基准：8/8在预期范围内
技能等级区分：具有统计学显著性（p < 0.001）

引用

bibtex @dataset{sousa2026, title={SOUSA: Synthetic Open Unified Snare Assessment}, author={Keown, Zak}, year={2026}, publisher={HuggingFace}, url={https://huggingface.co/datasets/zkeown/sousa} }

搜集汇总

数据集介绍

构建方式

在打击乐表演评估领域，SOUSA数据集的构建体现了对合成数据生成技术的深度应用。该数据集通过模拟不同技能层级鼓手的运动控制特征，生成了涵盖全部40种PAS国际鼓基本手法的演奏样本。具体构建过程包括基于流体合成器（FluidSynth）的多音色音频合成，结合了从练习垫到行进小军鼓等多种音源；同时，数据集引入了层次化的标注体系，在单次击打、小节和完整练习三个层面提供了精细的时序、力度及手法信息。此外，通过模拟房间声学、麦克风特性及动态处理等音频增强技术，确保了合成音频的逼真度与多样性。

特点

SOUSA数据集的核心特点在于其系统性的技能建模与丰富的多模态标注。数据集依据运动控制研究，构建了100个具有不同技能层级的虚拟演奏者档案，从初学者到专业鼓手，其演奏的时序偏差、力度控制及双手平衡度均呈现出符合实证研究的统计规律。数据样本总量接近十万，总时长约138小时，每段音频均配有对应的MIDI文件及多维度性能评分，如整体得分、时序准确性、力度控制等。数据划分采用基于演奏者档案的分层策略，确保模型能够泛化至未见过的演奏风格，而非记忆特定个体的表演模式。

使用方法

该数据集主要服务于基于机器学习的打击乐表演评估与研究。使用者可通过Hugging Face的`datasets`库便捷加载数据，并支持流式读取以应对大规模音频文件的内存挑战。数据集适用于多项任务，包括从音频或MIDI中预测演奏的整体评分或特定技能维度、对演奏进行技能层级分类、识别所演奏的具体基本手法、分析击打的微时序偏差，以及训练从鼓音频到MIDI的转录模型。研究人员可通过访问样本级的元数据、练习级的评分以及击打级和小节级的详细标签，进行多粒度的分析与模型训练。

背景与挑战

背景概述

在音乐信息检索与计算音乐学领域，对打击乐演奏性能进行客观评估一直是一项复杂且具有挑战性的任务。SOUSA数据集由研究人员Zak Keown于2026年创建并发布，旨在为机器学习模型提供一个大规模、高质量的合成数据资源，专门用于军鼓基本功的演奏评估。该数据集全面涵盖了国际打击乐艺术协会（PAS）定义的40种基本功，通过模拟从初学者到专业级别的不同演奏者技能剖面，生成了包含近十万个样本的音频与MIDI数据。其核心研究问题聚焦于如何利用合成数据来训练模型，以自动化地评估鼓手演奏的准确性、一致性、速度控制等多维度技能，从而为音乐教育、技能诊断和个性化反馈提供技术支持。该数据集的构建严格参考了运动控制领域的经典研究，确保了合成演奏特征的真实性与科学性，对推动智能音乐教学工具和表演分析系统的发展具有重要影响力。

当前挑战

SOUSA数据集致力于解决打击乐演奏自动评估这一领域问题的核心挑战，即如何从音频或MIDI信号中精确量化演奏者的技巧水平，包括微小的时序偏差、力度控制、重音清晰度及双手平衡等难以客观衡量的复杂维度。在数据集构建过程中，主要挑战在于如何生成既大规模又具备高度真实性的合成演奏数据。这需要精细地建模不同技能级别演奏者的运动控制特性，如时序误差的标准差和力度变异系数，并确保这些参数与现有运动控制研究文献的发现保持一致。同时，构建过程还需克服技术挑战，例如实现多层次标注（单次击打、小节、完整练习）、集成多种音源进行音频合成，以及应用复杂的音频增强策略来模拟不同的录音环境，从而保证生成数据的多样性和实用性，避免模型过拟合于单一的合成声学特征。

常用场景

经典使用场景

在打击乐教育与音乐信息检索领域，SOUSA数据集为机器学习模型提供了标准化的评估基准。其核心应用场景在于自动化打击乐演奏评估，通过合成数据模拟不同技能水平的鼓手演奏40种PAS标准基本功，模型可分析音频与MIDI数据中的时序精度、力度控制等维度，实现对演奏质量的客观评分。这一场景广泛应用于智能音乐教学系统，为学习者提供即时反馈，辅助技能提升。

衍生相关工作

围绕SOUSA数据集衍生的经典工作主要集中在跨模态音乐分析领域。例如，基于其层次化标注结构的研究提出了多任务学习框架，同时完成基本功识别与技能分类任务；另有工作利用其时序误差数据改进音频到MIDI的转录模型，提升对细微演奏差异的捕捉能力。这些研究进一步拓展至通用乐器演奏评估，为其他乐器的自动化性能分析提供了方法论参考。

数据集最近研究