BigMaQ (Big MacaQue 3D Motion and Animation Dataset)

Name: BigMaQ (Big MacaQue 3D Motion and Animation Dataset)
Creator: 蒂宾根大学·Hertie研究所; 马克斯·普朗克智能系统国际研究学院; 鲁汶大学
Published: 2026-02-23 22:21:15
License: 暂无描述

arXiv2026-02-23 更新2026-02-25 收录

下载链接：

https://martinivis.github.io/BigMaQ/

下载链接

链接失效反馈

官方服务：

资源简介：

BigMaQ是由蒂宾根大学等机构联合构建的首个结合3D表面建模的猕猴动作数据集，包含超过750个互动场景的16视角同步视频与骨骼关节旋转数据。该数据集通过16台校准相机采集，配套精细动作标签及个体特异性纹理化虚拟形象，数据量达173,543帧，支持从稀疏关键点到完整表面模型的跨模态研究。其创新性在于将动态3D姿态-形状表征融入动物行为识别任务，为灵长类动物的视觉外观、姿态分析及社交互动研究提供了全新资源。

BigMaQ is the first rhesus macaque action dataset integrating 3D surface modeling, jointly constructed by the University of Tübingen and other institutions. It contains 16-view synchronized videos and skeletal joint rotation data for over 750 interactive scenarios. Collected via 16 calibrated cameras, this dataset is paired with fine-grained action annotations and individual-specific textured virtual avatars, with a total of 173,543 frames, supporting cross-modal research ranging from sparse keypoints to complete surface models. Its innovation lies in integrating dynamic 3D pose-shape representation into animal behavior recognition tasks, providing a brand-new resource for research on visual appearance, pose analysis, and social interaction of primates.

提供机构：

蒂宾根大学·Hertie研究所; 马克斯·普朗克智能系统国际研究学院; 鲁汶大学

创建时间：

2026-02-23

搜集汇总

数据集介绍

构建方式

在动物行为学与计算视觉交叉领域，BigMaQ数据集通过多视角无标记运动捕捉技术构建而成。研究团队利用16台经过几何校准与同步的高精度彩色摄像机，以每秒40帧的速率记录了八只雄性恒河猴在自然社交环境中的行为。数据采集涵盖超过750个独立场景，每个场景均包含多视角视频流。基于高质量猕猴模板网格，团队通过线性混合蒙皮技术与可学习骨骼参数，为每只个体构建了具有纹理特征的特异性三维虚拟化身。动态姿态优化过程中，结合了关键点重投影损失、轮廓对齐损失以及时间一致性约束，并引入对称时间损失与裁剪差分渲染方法，实现了对复杂社交互动中精细动作的高保真重建。

特点

BigMaQ数据集的核心特征在于其首次将动态三维姿态-形状表征与动物行为识别任务深度融合。相较于传统基于稀疏二维关键点的动物姿态数据集，该数据集提供了包含115个关节旋转参数的完整骨骼姿态描述，并配备了个体特异性纹理化表面模型。数据集不仅包含多视角视频、边界框检测、分割掩码及行为标签，还衍生出BigMaQ500行为识别基准，涵盖超过8000段带有完整姿态序列标注的视频。其姿态表征采用生成式旋转矩阵形式，能够更本质地描述三维结构，在行为识别任务中展现出超越传统二维或三维关键点描述符的性能优势。

使用方法

该数据集为跨学科研究提供了多层次的应用接口。在计算行为学领域，研究者可利用其提供的姿态向量与视频特征，开发融合三维先验知识的动作识别模型，具体可通过提取预训练视觉编码器的特征并与姿态描述符拼接，输入基于Transformer的架构进行多模态学习。在神经科学中，高保真的动态表面重建可用于生成受控动画刺激，以研究灵长类对姿态、形状及社交互动的神经编码机制。此外，数据集中的个体特异性网格与骨骼参数可作为强姿态先验，用于约束单视角重建方法，提升对野外复杂场景的泛化能力。所有代码与数据均已公开，支持可重复研究。

背景与挑战

背景概述

BigMaQ（Big MacaQue 3D Motion and Animation Dataset）是由德国蒂宾根大学Hertie研究所、IMPRS-IS智能系统国际马克斯·普朗克研究所以及比利时鲁汶大学的研究团队于2026年ICLR会议上发布的大型猕猴三维运动与动画数据集。该数据集旨在解决动物行为学、生态学、医学及神经科学领域中对非人灵长类动物动态社交行为自动识别的关键瓶颈。传统方法多依赖于二维稀疏关键点描述，难以完整捕捉动作的丰富动力学特征，尤其缺乏对三维姿态与形状的精确重建。BigMaQ通过16台校准相机采集了超过750个猕猴互动场景，结合精心编制的行为谱系提供详细的三维骨骼关节旋转描述，并构建了个体特异性纹理化虚拟化身，首次将动态三维姿态-形状表征整合到动物行为识别的学习任务中，为灵长类视觉外观、姿态及社交互动研究提供了前所未有的数据资源。

当前挑战

BigMaQ数据集面临的挑战主要体现在两个方面：在领域问题层面，其核心在于实现非人灵长类动物三维姿态与形状的精确重建与行为识别的深度融合。现有方法多局限于二维关键点或三维位置数据，无法充分建模复杂的身体表面变形与关节旋转，尤其在捕捉手部旋转等精细动作以及多个体社交互动时存在显著不足。在构建过程中，研究团队需克服大规模多视角视频数据的高效处理、个体特异性网格模板的适配优化、时间一致性的保持以及纹理渲染的准确性等技术难题。此外，数据标注依赖有限的研究人员基于特定行为谱系，扩展至野外环境或其他灵长类物种时需跨行为专家达成共识，而复杂多个体场景下的视角一致检测与分割质量亦对重建精度构成持续挑战。

常用场景

经典使用场景

在灵长类动物行为学与计算神经科学领域，BigMaQ数据集为研究者提供了前所未有的三维姿态与表面重建能力。该数据集最经典的应用场景在于训练和评估非人灵长类动物行为识别模型，特别是那些需要整合三维身体形状与动态姿态信息的深度学习架构。通过提供超过750个多视角视频场景及其对应的详细三维骨骼旋转参数，BigMaQ使得研究人员能够超越传统的二维关键点描述，捕捉到猕猴社交互动中细微的身体扭转、手部旋转等丰富动作动态。这种高保真的三维表征为理解复杂社会行为提供了更精确的计算基础。

衍生相关工作

BigMaQ数据集的发布催生了一系列围绕三维动物姿态估计与行为理解的衍生研究。其构建方法继承并拓展了如MAMMAL等多视角表面跟踪技术，同时为SMAL等通用形状模型的物种适配提供了新范本。在行为识别领域，该数据集启发了将三维生成式姿态参数（而非仅三维位置）与视觉特征融合的模型设计思路，相关方法在BigMaQ500基准上显著提升了平均精度。后续工作可能利用该数据集训练猕猴专属的姿态先验，以约束单视图重建方法，从而提升对复杂姿态和野外图像的泛化能力。这些进展共同推动了从关键点描述到生成式三维表征的动物行为分析范式演进。

数据集最近研究