MoviCam

Name: MoviCam
Creator: 马克斯·普朗克计算机科学研究所
Published: 2025-07-23 19:04:30
License: 暂无描述

arXiv2025-07-23 更新2025-07-25 收录

下载链接：

https://github.com/aidilayce/physdynpose

下载链接

链接失效反馈

官方服务：

资源简介：

MoviCam是一个创新的评估基准，用于在复杂场景中跟踪运动相机下的人类运动。该数据集是首个包含详细场景几何信息、全局人类运动和移动相机轨迹的数据集，提供了精确的3D人体姿态和形状，以及人-场景接触标签。数据集包含7个序列，其中5个序列在非平面地面上进行，2个序列在平坦地面上进行。每个序列都展示了不同个体与场景的交互，并使用不同的移动相机轨迹进行捕获。这些交互包括行走、跳跃、伸展和蹲坐等。数据集共包含约22,000张图像，为人体运动跟踪研究提供了重要的评估资源。

MoviCam is an innovative evaluation benchmark for human motion tracking under moving cameras in complex scenes. This dataset is the first of its kind to include detailed scene geometry information, global human motion, and moving camera trajectories, while providing accurate 3D human poses and shapes as well as human-scene contact labels. The dataset consists of 7 sequences, 5 of which are conducted on non-planar ground and 2 on flat ground. Each sequence showcases interactions between different individuals and the scene, captured using distinct moving camera trajectories. These interactions include walking, jumping, stretching, squatting, and other similar movements. In total, the dataset contains approximately 22,000 images, serving as a critical evaluation resource for human motion tracking research.

提供机构：

马克斯·普朗克计算机科学研究所

创建时间：

2025-07-23

原始信息汇总

PhyDynPose数据集概述

数据集基本信息

名称：MoviCam
关联方法：PhysDynPose
发布会议：CVPRW 2025
论文标题：Physics-based Human Pose Estimation from a Single Moving RGB Camera
论文链接：https://openaccess.thecvf.com/content/CVPR2025W/RHOBIN/papers/Aytekin_Physics-based_Human_Pose_Estimation_from_a_Single_Moving_RGB_Camera_CVPRW_2025_paper.pdf

数据集状态

当前状态：待发布（代码和数据集将很快发布）

研究领域

主要应用：基于物理的人体姿态估计
数据采集方式：单移动RGB相机

搜集汇总

数据集介绍

构建方式

MoviCam数据集的构建采用了高度精确的多视角同步静态摄像头系统，结合动态捕捉技术，确保了数据的全面性和准确性。在数据采集过程中，120台高分辨率静态摄像头用于捕捉场景几何结构和人体运动轨迹，同时使用动态摄像机记录人体与场景的交互。通过Captury系统进行无标记运动捕捉，结合手眼校准技术精确追踪动态摄像机的轨迹，从而实现了人体姿态、场景几何和摄像机轨迹的同步获取。

特点

MoviCam数据集的特点在于其首次提供了动态移动单目RGB摄像机的真实轨迹、场景几何结构以及带有场景接触标签的3D人体运动数据。该数据集包含22,000张图像，覆盖了7个不同场景序列，其中5个为非平坦地面场景，2个为平坦地面场景。数据集不仅提供了SMPL格式的3D人体姿态和形状参数，还包括全局摄像机位姿和足部接触标签，为研究人体与复杂场景的交互提供了全面的基准。

使用方法

MoviCam数据集的使用方法主要包括三个步骤：首先，通过4DHumans模型估计人体姿态和形状；其次，利用DROID-SLAM算法估计动态摄像机的轨迹；最后，通过物理优化模块结合场景几何信息，对人体姿态进行精细化调整。该数据集适用于评估和开发在动态摄像机和非平坦场景下的3D人体姿态估计方法，尤其适用于需要物理合理性和场景感知的研究。

背景与挑战

背景概述

MoviCam数据集由马克斯·普朗克信息学研究所等机构的研究团队于2025年提出，旨在解决动态单目RGB相机下的三维人体姿态估计问题。该数据集首次提供了非合成环境中的真实动态相机轨迹、场景几何信息以及带有人物-场景接触标注的三维人体运动数据，填补了该领域的数据空白。MoviCam通过多视角静态相机与动态相机协同采集，包含7个序列约22,000帧数据，涵盖了平坦与非平坦场景下的人体交互行为。该数据集的建立为计算机视觉在动画制作、增强现实、人机交互等应用场景提供了重要的基准测试平台，推动了全球坐标系下人体运动追踪研究的发展。

当前挑战

MoviCam面临的挑战主要体现在两个方面：领域问题层面，现有方法难以处理动态相机与非平面场景带来的复杂几何约束，容易产生人体-场景穿透等物理不合理现象；数据构建层面，精确获取相机轨迹与场景几何的同步真值需要解决手眼标定、多传感器融合等技术难题。具体挑战包括：动态相机下的尺度模糊问题、非平面地形导致的物理约束建模困难、复杂场景中人体-物体交互的精确标注，以及长序列运动追踪中的漂移累积问题。这些挑战使得即使在先进算法下，现有系统在移动相机和非平面环境中的表现仍存在显著局限。

常用场景

经典使用场景

MoviCam数据集在计算机视觉领域主要用于从单一动态RGB相机中估计基于物理的三维人体姿态。其经典使用场景包括复杂环境下的非平坦地面和动态相机轨迹下的姿态跟踪。通过提供真实世界的光传输、相机运动和姿态引起的几何变化，MoviCam填补了现有合成数据集无法准确建模真实场景的空白。

衍生相关工作

基于MoviCam衍生的经典工作包括PhysDynPose方法，该方法整合了场景几何与物理约束来优化运动跟踪。相关研究还催生了GLAMR、WHAM等改进算法，推动了对非平坦地形下人体-场景交互的深入理解，为后续物理感知的姿态估计研究奠定了基础。

数据集最近研究