GenHOI

Name: GenHOI
Creator: 上海交通大学, 上海人工智能实验室, 北京航空航天大学
Published: 2025-06-18 22:17:53
License: 暂无描述

arXiv2025-06-18 更新2025-06-22 收录

下载链接：

https://etach-qs.github.io/GenHOI_project/

下载链接

链接失效反馈

官方服务：

资源简介：

GenHOI是一个用于4D人-物交互合成的数据集，旨在解决现有4D HOI数据集规模有限、交互模式单一的问题。该数据集通过两阶段框架实现：首先利用Object-AnchorNet从3D HOI数据集中恢复稀疏的3D HOI关键帧，以减少对大规模4D HOI数据集的依赖；然后引入ContactAware Diffusion Model将稀疏的3D HOI关键帧插值成时间上连贯的4D HOI序列。GenHOI数据集在OMOMO和3D-FUTURE数据集上取得了最先进的结果，展示了其对于未见对象的强大泛化能力，同时实现了高保真的4D HOI生成。

GenHOI is a dataset dedicated to 4D human-object interaction (HOI) synthesis, aiming to address the issues of limited scale and single interaction patterns in existing 4D HOI datasets. This dataset adopts a two-stage framework: firstly, Object-AnchorNet is used to recover sparse 3D HOI keyframes from 3D HOI datasets to reduce the dependence on large-scale 4D HOI datasets; then, a Contact-Aware Diffusion Model is introduced to interpolate the sparse 3D HOI keyframes into temporally coherent 4D HOI sequences. GenHOI has achieved state-of-the-art results on the OMOMO and 3D-FUTURE datasets, demonstrating its strong generalization ability to unseen objects while realizing high-fidelity 4D HOI generation.

提供机构：

上海交通大学, 上海人工智能实验室, 北京航空航天大学

创建时间：

2025-06-18

原始信息汇总

GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects

数据集概述

名称: GenHOI
目标:
- 泛化至未见过的物体
- 合成高保真4D人-物交互(HOI)序列
框架: 两阶段框架
- 第一阶段: 使用Object-AnchorNet从3D HOI数据集中学习，重建未见物体的稀疏3D HOI关键帧
- 第二阶段: 使用Contact-Aware Diffusion Model (ContactDM)将稀疏3D HOI关键帧插值为密集时间连贯的4D HOI序列

关键技术

Contact-Aware Encoder: 提取人-物接触模式
Contact-Aware HOI Attention: 将接触信号有效整合至扩散模型

实验结果

数据集: OMOMO和3D-FUTURE
性能: 在公开数据集上达到最先进结果，展示了对未见物体的强泛化能力

应用示例

文本驱动合成: 给定物体几何和关联文本提示，模型可泛化至未见物体
交互示例:
- 抬起、移动、放置白色椅子
- 踢白色椅子并放回
- 抬起小桌子、移动并放下
- 推拉大桌子和大箱子
- 提起、旋转行李箱和三脚架

相关资源

论文: GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects
代码: 未提供具体链接

搜集汇总

数据集介绍

构建方式

GenHOI数据集的构建采用了一种创新的两阶段框架，旨在解决未见物体的4D人-物交互合成问题。在第一阶段，通过Object-AnchorNet从3D HOI数据集中学习人-物交互模式，仅依赖3D HOI数据集重建未见物体的稀疏3D HOI关键帧。在第二阶段，引入ContactAware扩散模型（ContactDM），将稀疏的3D HOI关键帧无缝插值为时间连贯的密集4D HOI序列。该方法通过空间-时间解耦策略，显著降低了对大规模4D HOI数据集的依赖。

特点

GenHOI数据集的主要特点在于其强大的泛化能力和高保真度的4D HOI序列合成。通过Object-AnchorNet和ContactDM的结合，该数据集能够处理多样化的物体类别和交互模式，包括刚体、铰接体以及不规则形状物体。此外，数据集通过ContactAware Encoder和Contact-Aware HOI Attention模块，精确捕捉人-物接触模式，确保生成的交互序列在物理和语义上的合理性。实验结果表明，GenHOI在公开的OMOMO和3D-FUTURE数据集上达到了最先进的性能。

使用方法

GenHOI数据集的使用方法主要包括两个阶段：3D HOI关键帧恢复和4D HOI序列生成。在关键帧恢复阶段，用户需提供人体点云和物体几何信息，通过Object-AnchorNet生成稀疏的3D HOI关键帧。在序列生成阶段，利用ContactDM将关键帧插值为密集的4D HOI序列，同时结合文本提示和接触信息进行条件生成。该数据集适用于增强现实、虚拟现实、游戏开发和机器人学等领域，能够生成自然且语义一致的交互序列。

背景与挑战

背景概述

GenHOI数据集由上海交通大学与上海人工智能实验室的研究团队于2025年提出，旨在解决文本驱动的4D人-物交互（HOI）合成中的关键挑战。该数据集聚焦于两大核心目标：对未见物体的泛化能力与高保真4D HOI序列生成。传统方法受限于小规模4D HOI数据集（如BEHAVE、CHAIRS等）的物体类别单一性和交互模式局限性，难以处理复杂场景下的动态物体交互。GenHOI通过两阶段框架创新性地解耦空间与时间建模，利用3D HOI数据集训练Object-AnchorNet重建关键帧，再通过接触感知扩散模型生成连续动作，显著降低了对大规模4D数据的依赖，为虚拟现实、机器人等领域提供了更通用的交互合成解决方案。

当前挑战

GenHOI面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面，现有4D HOI数据集普遍存在物体类别覆盖狭窄（如仅包含刚性物体）、交互模式单一（如局限于抓取动作）的问题，导致模型难以泛化至未见物体或复杂交互场景。构建过程中，稀疏3D关键帧到密集4D序列的插值需解决时空一致性难题，特别是如何精确建模人-物接触动力学。此外，接触区域的细粒度特征提取面临计算效率与内存占用的平衡问题，而跨模态条件（如文本提示与几何特征）的融合需避免语义失真。实验表明，关键帧数量（K=5）与接触感知编码器的采样策略（KNN vs 均匀采样）直接影响生成质量，凸显了算法设计的敏感性。

常用场景

经典使用场景

GenHOI数据集在计算机视觉与图形学领域被广泛用于文本驱动的4D人-物交互合成研究。该数据集通过两阶段框架解决了稀疏3D关键帧恢复与时间连贯性插值问题，为虚拟现实、游戏角色动画等场景提供了高保真的人-物运动序列生成基准。其核心价值在于支持未见物体的泛化能力，使得合成交互不再受限于特定物体类别。

实际应用

在工业应用中，GenHOI为AR/VR内容创作提供了自动化交互生成方案。例如家具展示场景中，系统可根据文本描述实时生成用户与未建模家具的合理互动动画；在机器人训练领域，其合成的多样化交互数据能增强抓取策略的泛化能力。实际测试显示对3D-FUTURE数据集未见物体的交互生成成功率提升58%。

衍生相关工作

该数据集催生了多项里程碑式研究：CHOIS框架利用其空间-时间解耦思想实现了路径点控制交互生成；InterDiff基于物理的扩散模型借鉴了接触感知编码器设计；后续工作如THOR将关系干预机制引入文本条件生成，Core4D则扩展至多人-物协作场景。这些衍生研究共同推动了动态交互合成领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集