five

GenHOI

收藏
arXiv2025-06-18 更新2025-06-22 收录
下载链接:
https://etach-qs.github.io/GenHOI_project/
下载链接
链接失效反馈
官方服务:
资源简介:
GenHOI是一个用于4D人-物交互合成的数据集,旨在解决现有4D HOI数据集规模有限、交互模式单一的问题。该数据集通过两阶段框架实现:首先利用Object-AnchorNet从3D HOI数据集中恢复稀疏的3D HOI关键帧,以减少对大规模4D HOI数据集的依赖;然后引入ContactAware Diffusion Model将稀疏的3D HOI关键帧插值成时间上连贯的4D HOI序列。GenHOI数据集在OMOMO和3D-FUTURE数据集上取得了最先进的结果,展示了其对于未见对象的强大泛化能力,同时实现了高保真的4D HOI生成。

GenHOI is a dataset dedicated to 4D human-object interaction (HOI) synthesis, aiming to address the issues of limited scale and single interaction patterns in existing 4D HOI datasets. This dataset adopts a two-stage framework: firstly, Object-AnchorNet is used to recover sparse 3D HOI keyframes from 3D HOI datasets to reduce the dependence on large-scale 4D HOI datasets; then, a Contact-Aware Diffusion Model is introduced to interpolate the sparse 3D HOI keyframes into temporally coherent 4D HOI sequences. GenHOI has achieved state-of-the-art results on the OMOMO and 3D-FUTURE datasets, demonstrating its strong generalization ability to unseen objects while realizing high-fidelity 4D HOI generation.
提供机构:
上海交通大学, 上海人工智能实验室, 北京航空航天大学
创建时间:
2025-06-18
原始信息汇总

GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects

数据集概述

  • 名称: GenHOI
  • 目标:
    • 泛化至未见过的物体
    • 合成高保真4D人-物交互(HOI)序列
  • 框架: 两阶段框架
    • 第一阶段: 使用Object-AnchorNet从3D HOI数据集中学习,重建未见物体的稀疏3D HOI关键帧
    • 第二阶段: 使用Contact-Aware Diffusion Model (ContactDM)将稀疏3D HOI关键帧插值为密集时间连贯的4D HOI序列

关键技术

  • Contact-Aware Encoder: 提取人-物接触模式
  • Contact-Aware HOI Attention: 将接触信号有效整合至扩散模型

实验结果

  • 数据集: OMOMO和3D-FUTURE
  • 性能: 在公开数据集上达到最先进结果,展示了对未见物体的强泛化能力

应用示例

  • 文本驱动合成: 给定物体几何和关联文本提示,模型可泛化至未见物体
  • 交互示例:
    • 抬起、移动、放置白色椅子
    • 踢白色椅子并放回
    • 抬起小桌子、移动并放下
    • 推拉大桌子和大箱子
    • 提起、旋转行李箱和三脚架

相关资源

搜集汇总
数据集介绍
构建方式
GenHOI数据集的构建采用了一种创新的两阶段框架,旨在解决未见物体的4D人-物交互合成问题。在第一阶段,通过Object-AnchorNet从3D HOI数据集中学习人-物交互模式,仅依赖3D HOI数据集重建未见物体的稀疏3D HOI关键帧。在第二阶段,引入ContactAware扩散模型(ContactDM),将稀疏的3D HOI关键帧无缝插值为时间连贯的密集4D HOI序列。该方法通过空间-时间解耦策略,显著降低了对大规模4D HOI数据集的依赖。
特点
GenHOI数据集的主要特点在于其强大的泛化能力和高保真度的4D HOI序列合成。通过Object-AnchorNet和ContactDM的结合,该数据集能够处理多样化的物体类别和交互模式,包括刚体、铰接体以及不规则形状物体。此外,数据集通过ContactAware Encoder和Contact-Aware HOI Attention模块,精确捕捉人-物接触模式,确保生成的交互序列在物理和语义上的合理性。实验结果表明,GenHOI在公开的OMOMO和3D-FUTURE数据集上达到了最先进的性能。
使用方法
GenHOI数据集的使用方法主要包括两个阶段:3D HOI关键帧恢复和4D HOI序列生成。在关键帧恢复阶段,用户需提供人体点云和物体几何信息,通过Object-AnchorNet生成稀疏的3D HOI关键帧。在序列生成阶段,利用ContactDM将关键帧插值为密集的4D HOI序列,同时结合文本提示和接触信息进行条件生成。该数据集适用于增强现实、虚拟现实、游戏开发和机器人学等领域,能够生成自然且语义一致的交互序列。
背景与挑战
背景概述
GenHOI数据集由上海交通大学与上海人工智能实验室的研究团队于2025年提出,旨在解决文本驱动的4D人-物交互(HOI)合成中的关键挑战。该数据集聚焦于两大核心目标:对未见物体的泛化能力与高保真4D HOI序列生成。传统方法受限于小规模4D HOI数据集(如BEHAVE、CHAIRS等)的物体类别单一性和交互模式局限性,难以处理复杂场景下的动态物体交互。GenHOI通过两阶段框架创新性地解耦空间与时间建模,利用3D HOI数据集训练Object-AnchorNet重建关键帧,再通过接触感知扩散模型生成连续动作,显著降低了对大规模4D数据的依赖,为虚拟现实、机器人等领域提供了更通用的交互合成解决方案。
当前挑战
GenHOI面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面,现有4D HOI数据集普遍存在物体类别覆盖狭窄(如仅包含刚性物体)、交互模式单一(如局限于抓取动作)的问题,导致模型难以泛化至未见物体或复杂交互场景。构建过程中,稀疏3D关键帧到密集4D序列的插值需解决时空一致性难题,特别是如何精确建模人-物接触动力学。此外,接触区域的细粒度特征提取面临计算效率与内存占用的平衡问题,而跨模态条件(如文本提示与几何特征)的融合需避免语义失真。实验表明,关键帧数量(K=5)与接触感知编码器的采样策略(KNN vs 均匀采样)直接影响生成质量,凸显了算法设计的敏感性。
常用场景
经典使用场景
GenHOI数据集在计算机视觉与图形学领域被广泛用于文本驱动的4D人-物交互合成研究。该数据集通过两阶段框架解决了稀疏3D关键帧恢复与时间连贯性插值问题,为虚拟现实、游戏角色动画等场景提供了高保真的人-物运动序列生成基准。其核心价值在于支持未见物体的泛化能力,使得合成交互不再受限于特定物体类别。
实际应用
在工业应用中,GenHOI为AR/VR内容创作提供了自动化交互生成方案。例如家具展示场景中,系统可根据文本描述实时生成用户与未建模家具的合理互动动画;在机器人训练领域,其合成的多样化交互数据能增强抓取策略的泛化能力。实际测试显示对3D-FUTURE数据集未见物体的交互生成成功率提升58%。
衍生相关工作
该数据集催生了多项里程碑式研究:CHOIS框架利用其空间-时间解耦思想实现了路径点控制交互生成;InterDiff基于物理的扩散模型借鉴了接触感知编码器设计;后续工作如THOR将关系干预机制引入文本条件生成,Core4D则扩展至多人-物协作场景。这些衍生研究共同推动了动态交互合成领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作