CoMPAS3D
收藏arXiv2025-07-26 更新2025-07-30 收录
下载链接:
https://huggingface.co/datasets/Rosie-Lab/compas3d
下载链接
链接失效反馈官方服务:
资源简介:
CoMPAS3D是一个大规模的运动捕捉数据集,包含了3小时的自发即兴萨尔萨舞,由18名舞者表演,涵盖了初学者、中级和专业技能水平。数据集包括超过2800个动作片段的详细标注,包括动作类型、组合、执行错误和风格元素。CoMPAS3D旨在为交互式、表达性的人形AI提供一个具有挑战性的测试平台。数据集还包括同步的音频记录、高保真的3D运动数据以及SMPL-X参数化身体模型拟合,从而可以进行详细的分析和建模。CoMPAS3D对于研究非言语交互、流畅性和风格在具身AI系统中的应用具有重要意义。
CoMPAS3D is a large-scale motion capture dataset containing 3 hours of spontaneous improvised salsa dances performed by 18 dancers spanning beginner, intermediate, and professional skill levels. The dataset includes detailed annotations for over 2800 motion clips, covering motion types, combinations, execution errors, and stylistic elements. CoMPAS3D aims to serve as a challenging testbed for interactive and expressive humanoid AI systems. It also features synchronized audio recordings, high-fidelity 3D motion data, and SMPL-X parametric body model fits, enabling detailed analysis and modeling. CoMPAS3D holds significant value for research on nonverbal interaction, fluidity, and style in embodied AI systems.
提供机构:
西蒙弗雷泽大学计算科学学院
创建时间:
2025-07-26
原始信息汇总
CoMPAS3D数据集概述
基本信息
- 名称: CoMPAS3D (Complex Multi-Level Person-Interaction Annotated Salsa Dataset)
- 类型: 动作捕捉数据集
- 领域: 非语言物理交流、舞蹈交互
- 语言: 英语
- 许可: CC-BY-NC-4.0(.mp4音频文件版权归原作者所有)
- 数据量: 1K<n<10K
- 标签: 动画、舞蹈、萨尔萨、交互、人形、动作捕捉
数据集内容
- 数据形式:
- SMPL-X格式的3D动作数据(.npz)
- 视频可视化文件(.mp4)
- 同步音频
- 50%序列的帧级注释(.txt)
- 数据量:
- 3小时以上的即兴萨尔萨双人舞表演
- 18名舞者(9对)
- 72个长序列(每个2.5分钟)
- 采集系统:
- 20个Vicon相机
- 120fps采样率
- 约72立方米的捕捉空间
参与者信息
- 技能水平:
- 初学者(3-6个月经验)
- 中级(1-3年经验)
- 专业(4年以上经验)
- 舞蹈风格: LA-style萨尔萨
音乐信息
| 歌曲编号 | 艺术家 | 曲名 | 节奏(BPM) |
|---|---|---|---|
| Song 1 | Tito Rojas | Lo que te queda | 90 |
| Song 2 | Louie Ramirez, Ray de La Paz | Lluvia | 105 |
| Song 3 | Leoni Torres | Idilio | 95 |
| Song 4 | Johnny Ventura | Dilema | 93 |
标注信息
- 标注工具: ELAN
- 标注内容:
- 配对动作标签
- 个体舞者动作和风格标注
- 错误分类
- 标注者: 15年萨尔萨舞蹈经验的专家
应用场景
- 单人动作分割、分类、转录
- 单人动作生成
- 跟随者动作生成
- 配对动作生成与分析
- 风格转换
限制与注意事项
- 仅包含LA-style萨尔萨
- 接触信息通过网格后处理生成
- 不应用于商业用途
相关资源
- 论文: "Salsa as a Nonverbal Embodied Language--The CoMPAS3D Dataset and Benchmarks" (筹备中)
- 代码库: https://github.com/rosielab/compas3d
致谢
- Giorgio Becherini和Dr. Michael Black(SMPL-X格式转换)
- Ahmet Tasel和Jim Su(动作捕捉技术支持)
- Rajan Family的资金支持
搜集汇总
数据集介绍

构建方式
CoMPAS3D数据集的构建采用高精度Vicon动作捕捉系统,在受控工作室环境中采集了18名不同水平舞者(初学者、中级、专业)的即兴萨尔萨双人舞数据。通过53个标记点捕捉120Hz帧率的运动轨迹,并同步录制四首不同节奏的萨尔萨音乐(90-105BPM)。每对舞者完成每首曲目的两次即兴表演,形成总时长3小时的72段序列。数据集创新性地采用8拍分段策略,由资深萨尔萨专家完成2800余段动作的细粒度标注,涵盖30类基础动作、执行错误及风格化修饰,标注耗时超过120小时。
特点
作为目前规模最大、注释最丰富的即兴萨尔萨舞蹈数据集,CoMPAS3D的独特性体现在三维维度:1) 多层级专业度覆盖,首次同时包含初学者、中级和专业舞者的互动数据;2) 细粒度动作语义标注,提供帧级动作类型、组合错误及风格元素标签;3) 真实交互动态,完整保留即兴舞蹈中的双向适应性和非语言沟通特性。数据采用SMPL-X参数化人体模型表示,同步包含音乐节奏信息,为研究非语言具身对话提供了结构化基准。
使用方法
该数据集支持多模态交互研究的两类核心任务:1) 单人舞蹈生成,根据音乐和指定水平(初学者/中级/专业)生成领舞或跟随者动作序列,评估指标包括FID运动距离、多样性及节拍对齐分数;2) 双人舞生成,以领舞者动作为条件预测跟随者响应,通过交叉距离FID和节奏回声度(BED)评估互动质量。使用者可通过HuggingFace平台获取SMPL-X格式运动数据、ELAN标注文件及同步音频,基准代码支持动作分类、生成任务,并为虚拟人交互系统开发提供基础。
背景与挑战
背景概述
CoMPAS3D数据集由Simon Fraser University的研究团队于2025年推出,专注于即兴萨尔萨舞的非语言具身交互研究。作为目前规模最大、多样性最丰富的运动捕捉数据集,它包含18名不同技能水平舞者(初学者、中级和专业)的3小时双人舞数据,并首次提供了2800多个动作段落的精细标注,涵盖动作类型、组合、执行错误及风格元素。该数据集将萨尔萨舞视为一种具身语言系统,为交互式人形AI、非语言社交互动和创意运动生成领域提供了重要基准,其多模态特性(同步音乐、SMPL-X身体参数)和语言学类比框架(词汇/语法/流畅度)为具身智能研究开辟了新范式。
当前挑战
CoMPAS3D面临的挑战主要体现在两个维度:领域问题层面,需解决连续双向反应式交互建模的复杂性,包括实时触觉信号解析、技能水平自适应(如专业与初学者配对时的动作协调),以及音乐-运动跨模态同步(90-105BPM节奏下的节拍对齐);数据构建层面,克服了运动捕捉中密集身体接触导致的标记点遮挡(使用53标记点Vicon系统)、即兴舞蹈的结构化标注难题(8拍周期分段与120小时专家标注),以及多技能水平数据采集的标准化(自评分级与LA风格统一)。这些挑战使该数据集成为测试具身AI在长时程社交互动中表现力的独特平台。
常用场景
经典使用场景
CoMPAS3D数据集作为目前规模最大、多样性最丰富的即兴萨尔萨舞蹈动作捕捉数据集,其经典使用场景集中在非语言具身交互的建模与评估领域。该数据集通过记录18名不同技能水平(初学者、中级、专业)舞者的3小时双人即兴舞蹈,并标注2800余个动作片段(包含动作类型、组合、执行错误及风格元素),为研究连续双向反应式交互提供了真实场景。在具身人工智能研究中,它常被用于虚拟角色舞蹈生成、交互式运动规划算法的开发,以及探究人类动作与音乐节奏的复杂同步机制。
实际应用
在实际应用层面,CoMPAS3D支撑了多个前沿技术开发:在虚拟现实领域,其数据被用于生成能根据人类舞者熟练度自适应调整的AI舞蹈伴侣;在体育科学中,专业标注的动作错误库为舞蹈教学系统提供实时纠错功能;在跨模态生成任务上,该数据集训练的SalsaAgent模型已实现音乐条件化的双人舞生成,未来可扩展至更广泛的社交机器人交互场景。特别值得注意的是,其精细的触觉信号标注为远程物理交互系统(如触觉反馈设备)提供了关键训练数据。
衍生相关工作
该数据集已催生多项标志性研究:基于其构建的SalsaAgent多任务模型首次统一了领舞/跟舞生成与双人舞合成任务;在方法论层面,研究者将自然语言处理中的BLEU评分机制迁移至动作生成质量评估,开发出基于舞蹈裁判标准的自动化评分体系。后续工作如DanceBERT利用该数据集的时序标注探索动作预测的注意力机制,而SyncNet则专注于音乐-动作跨模态表征学习。这些衍生研究共同推进了具身交互从孤立动作向连续社会性对话的范式转变。
以上内容由遇见数据集搜集并总结生成



