HHOIs数据集
收藏arXiv2025-11-26 更新2025-11-27 收录
下载链接:
https://tlb-miss.github.io/hhoi/
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建的HHOIs数据集是由首尔国立大学研发的专门用于建模多人-物体交互关系的三维数据集。该数据集通过多摄像机系统采集真实场景数据,并融合基于图像生成模型的合成数据增强策略,有效扩展了交互场景的多样性。数据构建过程采用分阶段建模方法,先分别获取人体-物体交互和人际交互数据,再通过评分扩散模型实现统一生成。该数据集主要应用于社交行为分析、虚拟人机交互等前沿领域,旨在解决多人在共享物体场景下的协同行为建模难题。
The HHOIs dataset constructed in this study is a 3D dataset developed by Seoul National University specifically for modeling multi-person-object interaction relationships. This dataset collects real-world scene data via a multi-camera system, and integrates a synthetic data augmentation strategy based on image generation models to effectively expand the diversity of interaction scenarios. The data construction process adopts a phased modeling approach: it first collects human-object interaction and interpersonal interaction data separately, then achieves unified generation through a score-based diffusion model. This dataset is mainly applied in cutting-edge fields such as social behavior analysis and virtual human-computer interaction, aiming to solve the challenge of modeling collaborative behaviors of multiple people in shared-object scenarios.
提供机构:
首尔国立大学
创建时间:
2025-11-26
搜集汇总
数据集介绍

构建方式
在人类行为建模领域,HHOIs数据集通过多视角相机系统捕捉真实世界中的双人-物体交互场景,结合ArUco标记物进行物体姿态追踪,并利用DWPose提取二维人体关键点。通过三维优化方法重建SMPL-X参数,辅以人工后处理筛选,确保数据精度。同时引入基于图像生成模型的合成数据流水线,通过ComA工具生成三维人-物交互数据,并借助Flux扩散模型与人体网格恢复技术构建人-人交互样本,有效扩充了户外场景等难以实地捕捉的交互类型。
特点
该数据集涵盖19类物体场景,包含13,669组人-物交互与13,650组人-人交互样本,深度融合真实捕捉与合成数据优势。其核心特征在于首次系统化建模双人协同物体交互的时空关系,突破传统单人物体交互数据集的局限。通过低维人体姿态嵌入空间与基于分数的扩散模型框架,实现了对复杂社交行为中人体姿态、相对位置与运动协调性的联合表征,为多智能体具身推理研究提供高保真基础。
使用方法
研究者可将文本描述输入预训练的分数扩散模型,通过概率流常微分方程的反向求解过程生成初始人-物交互与人-人交互样本。进一步采用高级引导采样策略,引入姿态不一致损失与碰撞损失优化生成结果,确保多人体在共享物体场景中的空间合理性与运动协调性。该流程支持扩展至三人及以上交互生成,输出结果可直接应用于动作补全、社交行为分析等下游任务。
背景与挑战
背景概述
HHOIs数据集由首尔国立大学的研究团队于2025年提出,旨在解决多人与共享物体交互建模的空白。该数据集聚焦于人类-人类-物体交互的复杂场景,通过多视角摄像系统捕获真实世界中的协调行为,并利用生成式模型合成补充数据。其核心研究问题在于如何准确捕捉人际距离、空间配置和运动模式等情境依赖性行为,为具身智能和数字人建模提供了关键数据支撑,显著推动了社交行为分析与生成领域的发展。
当前挑战
在领域问题层面,HHOIs数据集致力于解决多人与物体交互的生成与理解挑战,需同时建模人类-物体交互和人类-人类交互的耦合关系,确保生成结果的物理合理性和语义一致性。构建过程中,数据采集面临真实场景多样性不足的局限,例如大型物体或户外交互难以在受控环境中捕获;此外,合成数据生成需克服二维图像扩散模型与三维人体网格重建的跨模态对齐难题,以及多视角人体姿态估计中的遮挡与身份关联问题。
常用场景
经典使用场景
在计算机视觉与人工智能领域,HHOIs数据集为研究多人-物体交互行为提供了关键支撑。该数据集通过多视角捕捉系统记录真实环境中两人围绕共享物体的协同动作,例如共同使用白板讨论或并肩坐在长椅上。其经典应用体现在训练基于分数的扩散模型,通过文本描述生成符合物理规律的多人体姿态与空间布局,为理解复杂社交场景中的动态关系奠定数据基础。
实际应用
在现实场景中,HHOIs数据集支撑了智能监控系统对群体活动的语义解析,例如识别会议场景中的协作姿态或公共空间的社交距离。其生成模型可应用于虚拟现实内容创作,自动生成符合文本描述的多人互动动画。在机器人协作领域,该数据有助于开发能理解人类团队操作意图的辅助系统,提升人机共融环境下的任务执行效率。
衍生相关工作
基于该数据集衍生的经典研究包括多人体运动生成框架InterGen与扩散噪声优化方法,将静态交互扩展为时序动作合成。其提出的不一致性损失与碰撞损失机制被后续工作借鉴用于提升生成样本的物理合理性。此外,数据集构建方法论启发了结合真实捕获与合成数据的混合采集范式,推动如CORE4D等协作交互数据集向更丰富场景演进。
以上内容由遇见数据集搜集并总结生成



