Interaction-aware Human-Object Composition (IHOC)

Name: Interaction-aware Human-Object Composition (IHOC)
Creator: 同济大学 / 香港城市大学
Published: 2025-07-23 01:59:21
License: 暂无描述

arXiv2025-07-23 更新2025-07-24 收录

下载链接：

https://dliang293.github.io/HOComp-project/

下载链接

链接失效反馈

官方服务：

资源简介：

IHOC数据集由同济大学和香港城市大学的研究团队创建，旨在支持人机交互场景下的图像合成任务。该数据集包含人与前景对象交互前后的图像、交互区域以及相应的交互类型。数据集的创建是为了解决现有图像合成方法在处理人机交互时无法生成自然融合且外观一致的问题。IHOC数据集可以用于训练和评估交互感知的人机交互合成模型，从而生成具有和谐交互和一致外观的图像。

The IHOC dataset was developed by research teams from Tongji University and City University of Hong Kong to support image synthesis tasks in human-computer interaction (HCI) scenarios. This dataset contains images captured before and after the interaction between humans and foreground objects, interaction regions, as well as corresponding interaction types. The dataset was constructed to resolve the limitation that existing image synthesis methods cannot produce naturally fused and visually consistent outputs when dealing with HCI-related tasks. The IHOC dataset can be utilized for training and evaluating interaction-aware human-computer interaction synthesis models, enabling the generation of images with harmonious interactions and consistent visual appearances.

提供机构：

同济大学 / 香港城市大学

创建时间：

2025-07-23

原始信息汇总

HOComp: Interaction-Aware Human-Object Composition

基本信息

提出机构：Tongji University, City University of Hong Kong, HKUST(GZ)
作者：Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W.H. Lau
论文标题：HOComp: Interaction-Aware Human-Object Composition
论文年份：2025
论文链接：https://arxiv.org/abs/2507.16813

方法概述

核心目标：实现前景对象与以人为中心的背景图像的无缝合成，确保和谐的交互并保持前景对象和背景人物的视觉一致性。
关键设计：
- MLLMs驱动的基于区域的姿态引导（MRPG）：通过粗到细的策略约束人-物交互。
- 细节一致的外观保持（DCAP）：保持前景/背景外观的一致性。

数据集

Interaction-aware Human-Object Composition (IHOC) dataset：专为人-物交互合成任务构建的数据集。

技术细节

推理阶段：
- MRPG使用MLLMs生成文本提示C、对象框Bo和交互区域Br。
- Br和C被编码，与对象ID、细节特征和背景特征一起用于条件化DiT以生成最终合成图像。
训练阶段：
- MRPG通过姿态引导损失L_pose和关键点监督约束交互。
- DCAP通过形状感知注意力调制、多视角外观损失L_appearance和背景损失L_background保持外观一致性。

应用

通过与Image-to-Video (I2V)模型集成，支持人-物演示视频生成等应用。

引用

bibtex @article{liang2025hocomp, title={HOComp: Interaction-Aware Human-Object Composition}, author={Dong Liang and Jinyuan Jia and Yuhao Liu and Rynson W. H. Lau}, journal={arXiv preprint arXiv:2507.16813}, year={2025} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，人机交互合成任务对数据质量提出了极高要求。Interaction-aware Human-Object Composition (IHOC) 数据集通过四阶段构建流程实现了数据多样性保障：首先基于HICO-DET的117种交互类型，人工筛选5,850张真实图像并配合GPT-4o生成5,850张合成图像；随后利用SAM分割前景对象并通过GPT-4o补全遮挡区域；继而采用FLUX.1 FILL工具消除交互对象以还原背景人物图像；最后通过多模态大模型自动标注交互区域与文本提示，形成包含11,700组样本的完整数据集。

特点

该数据集在视觉多样性与结构完整性方面具有显著优势。其覆盖全身体/上半身的正侧面视角（42.4%正面近景），包含站立（61.7%）、坐姿（21.3%）等5类人体姿态，并细分手部（54.3%）、足部（15%）等交互身体部位。数据样本按对象尺寸分为小（29.2%）、中（44.3%）、大（26.5%）三类，同时囊括照片级真实感（65.8%）与卡通风格（8.5%）等5种视觉风格，背景场景则均衡覆盖简单室内（27.9%）到复杂室外（23.3%）四种类型。

使用方法

该数据集支持端到端的人机交互合成模型训练与评估。使用时应遵循三阶段流程：首先加载背景人物图像与分割后的前景对象；继而解析MLLMs生成的交互类型文本提示与区域坐标；最后通过双分支网络架构同步优化姿态约束（MRPG模块的Lpose损失）与外观一致性（DCAP模块的Lappearance损失）。评估时建议采用HOI-Score（87.39基准值）衡量交互自然度，配合DINO-Score（78.21基准值）检测对象身份保持能力，并利用SSIM(BG)（96.57基准值）验证背景一致性。

背景与挑战

背景概述

Interaction-aware Human-Object Composition (IHOC) 数据集由同济大学与香港城市大学的研究团队于2025年提出，旨在解决人机交互场景下的图像合成难题。该数据集聚焦于人类与前景物体的自然交互合成，通过整合多模态大语言模型（MLLMs）和姿态引导技术，为计算机视觉领域提供了首个专门针对交互感知合成任务的数据基准。其核心研究问题在于如何实现前景物体与背景人物的和谐交互，同时保持两者的外观一致性，对广告设计、虚拟试衣等应用场景具有重要价值。

当前挑战

IHOC数据集面临双重挑战：在领域问题层面，需突破传统图像合成方法对交互姿态建模的局限性，解决复杂人体姿态与物体空间关系的动态适配问题；在构建过程中，需克服真实场景数据采集的标注成本，通过半自动化的交互区域标注和姿态关键点提取技术，确保数据集的多样性与准确性。此外，合成数据与真实数据的平衡、多视角外观一致性的保持，以及背景人物细节的保留，均为数据集构建中的关键技术难点。

常用场景

经典使用场景

在计算机视觉领域，IHOC数据集为研究人机交互（Human-Object Interaction, HOI）提供了丰富的实验素材。该数据集通过精心设计的合成与真实图像组合，涵盖了117种不同类型的人机交互场景，包括手持、举起、踢动等多种动作。研究者可以利用该数据集训练和评估模型在复杂交互场景下的表现，特别是在生成具有自然姿态和一致外观的人机交互图像方面。数据集中的多样化视角、姿态和背景场景，使其成为评估模型泛化能力的理想选择。

衍生相关工作

基于IHOC数据集，研究者已开发出多项创新工作。HOComp框架通过MLLM驱动的姿态引导和细节保持机制，实现了高质量的人机交互合成。DreamActor-H1和HunyuanVideo-HOMA等工作进一步扩展了其在视频生成领域的应用。数据集还启发了对多模态大语言模型在视觉任务中应用的研究，如GPT-4o在交互区域预测中的创新使用。这些衍生工作共同推动了人机交互生成技术的发展，为计算机视觉领域注入了新的活力。

数据集最近研究