RGB SAM ViTPose++ BUDDI Human4D Ours

Name: RGB SAM ViTPose++ BUDDI Human4D Ours
Creator: 东南大学, 新加坡国立大学, 四川大学, 新加坡科技研究局IHPC, 新加坡科技研究局CFAR
Published: 2025-07-03 20:19:26
License: 暂无描述

arXiv2025-07-03 更新2025-07-05 收录

下载链接：

https://www.buzhenhuang.com/works/CloseApp.html

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含100个人与人之间的互动视频，旨在解决现有方法在处理视觉模糊和人物遮挡时无法准确恢复人体姿态估计的问题。数据集通过伪真实互动注释进行标注，旨在推动姿态估计和人体行为理解的研究。

This dataset contains 100 human-to-human interaction videos, which is developed to address the issue that existing human pose estimation methods cannot accurately recover human pose estimates when dealing with visual blur and human occlusions. Annotated with pseudo-real interaction annotations, this dataset aims to advance research in human pose estimation and human behavior understanding.

提供机构：

东南大学, 新加坡国立大学, 四川大学, 新加坡科技研究局IHPC, 新加坡科技研究局CFAR

创建时间：

2025-07-03

搜集汇总

数据集介绍

构建方式

在复杂的人机交互研究领域，RGB SAM ViTPose++ BUDDI Human4D Ours数据集的构建采用了创新的双分支优化框架。研究团队首先训练扩散模型学习人体近体行为先验知识，通过掩码策略增强模型对遮挡场景的鲁棒性。随后将训练好的扩散模型与可优化张量结合，构建运动分支和外观分支，同时引入基于3D高斯、2D关键点和网格穿透的多重约束条件。数据集采集自100段真实场景下的双人交互视频，通过提出的优化方法生成伪真实标注，并经过人工校验确保数据质量。

使用方法

该数据集为紧密人体交互研究提供了新的基准。研究者可利用其伪真实标注训练回归模型，验证算法在复杂场景下的泛化能力。使用时需注意数据包含完整的运动序列信息，适合时序建模任务。对于单帧应用，建议使用提供的2D关键点及3D姿态标注。数据集配套的渲染管线支持外观重建研究，用户可通过高斯泼溅结果验证深度排序关系。实验表明，该数据能有效提升现有交互方法的性能，特别是在处理野外视频时的表现。使用时需遵守TikTok服务条款，仅限于科研目的。

背景与挑战

背景概述

RGB SAM ViTPose++ BUDDI Human4D Ours数据集由东南大学、新加坡国立大学等机构的研究团队于2025年提出，旨在解决复杂场景下紧密人体交互的三维重建问题。该数据集聚焦于视觉模糊和人际遮挡等挑战，通过融合外观特征、空间关系与物理约束的双分支优化框架，实现了对自然交互动作的精确建模。作为首个包含室外场景伪真实标注的交互数据集，其创新性地采用3D高斯泼溅技术进行外观建模，显著提升了运动重建的精度，为行为理解、虚拟现实等下游应用提供了重要数据支撑。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，紧密交互场景中严重的视觉模糊和人际遮挡导致现有基础模型（如SAM和ViTPose++）难以准确解析人体语义，传统单人多视角方法无法处理复杂接触关系；在构建过程层面，伪真实标注的生成受限于深度歧义问题，需平衡外观渲染精度与运动重建效率，同时多模态约束（2D关键点、3D高斯、网格穿透）的联合优化存在高度非凸性，对计算架构设计提出了极高要求。

常用场景

经典使用场景

RGB SAM ViTPose++ BUDDI Human4D Ours数据集在计算机视觉领域，特别是在复杂人体交互重建任务中展现了卓越的应用价值。该数据集通过结合人类外观、空间关系和物理约束，为密集交互场景下的三维人体姿态估计提供了高质量的训练和测试基准。其独特之处在于能够处理自然场景视频中因视觉模糊和相互遮挡导致的姿态估计失效问题，为研究者提供了前所未有的真实世界交互数据。

解决学术问题

该数据集有效解决了密集人体交互场景中的三大核心学术难题：深度模糊、网格穿透和人际遮挡。通过引入外观分支和运动分支的双重优化框架，首次实现了从单目视频中重建具有物理合理性的紧密交互动作。其提出的扩散模型先验知识显著提升了姿态估计在遮挡情况下的鲁棒性，填补了传统方法在自然场景交互重建领域的空白，为行为理解研究提供了新的理论基础和技术路线。

实际应用

在实际应用层面，该数据集支撑的技术已成功部署于多个前沿领域。在虚拟现实系统中，实现了高保真度的多人互动数字人重建；智能安防领域通过分析密切交互行为提升异常检测准确率；人机交互界面则利用其精确的接触关系建模优化了物理反馈机制。特别值得注意的是，在社交机器人研发中，该数据集提供的近距离交互先验知识显著改善了机器人的空间感知和反应能力。

数据集最近研究