Interact-Custom 数据集
收藏arXiv2025-08-27 更新2025-11-25 收录
下载链接:
https://github.com/XZPKU/Inter-custom
下载链接
链接失效反馈官方服务:
资源简介:
Interact-Custom 数据集是一个大规模的数据集,包含约 100 万个数据样本,涵盖了不同交互动作类别、物体类型和交互姿态。该数据集旨在促进 Customized Human Object Interaction Image Generation (CHOI) 任务的研究,该任务旨在生成包含人与物体交互的场景图像,同时保持目标人物和物体的身份特征,并控制它们之间的交互语义。数据集的构建过程包括图像数据适配和视频数据扩展,以确保数据样本能够满足特征分离和交互语义表达的需求。
The Interact-Custom dataset is a large-scale dataset containing approximately 1 million data samples, covering diverse interaction action categories, object types, and interaction poses. This dataset aims to advance research on the Customized Human Object Interaction Image Generation (CHOI) task, which focuses on generating scene images with human-object interactions while preserving the identity features of the target human and object, and controlling the interaction semantics between them. The construction of this dataset includes image data adaptation and video data expansion, to ensure that the data samples can meet the requirements of feature separation and interaction semantic expression.
提供机构:
北京大学王选计算机科学技术研究所, 北京, 中国
创建时间:
2025-08-27
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,人机交互图像生成任务对数据质量提出了更高要求。Interact-Custom数据集通过双通道构建策略实现大规模样本采集:一方面对现有静态交互数据集进行姿态变换增强,利用分割工具提取目标人物后通过类别一致掩码引导生成多样化姿态;另一方面从网络视频中截取包含相同交互对象对的连续帧,结合Grounded-SAM分割与Intern-VL动作标注构建自然姿态变化样本。最终整合约100万样本,覆盖85类日常物体与121种交互动作,形成具有身份一致性与姿态多样性的训练资源。
特点
该数据集的核心特征体现在三维度创新:样本结构上突破传统静态交互局限,每个交互对象对均包含多组不同姿态样本,为特征解耦学习提供理想载体;内容广度上涵盖630种动作-物体组合,超越现有HOI数据集的语义覆盖范围;质量维度通过视频帧序列保障姿态变化的自然连贯性,同时采用双粒度标注体系同时记录空间配置与交互语义。这种设计使数据集兼具身份保持与交互控制的双重学习价值。
使用方法
针对定制化人机交互图像生成任务,数据集支持两阶段训练范式:在空间配置学习阶段,以前景掩码与交互文本提示作为条件信号,训练模型生成符合语义的空间布局;在特征解耦阶段,利用同对象对不同姿态的样本对,引导模型分离身份特征与姿态特征。用户可灵活组合图像与视频源数据,通过指定背景图像与交互区域边界框实现高精度空间控制,最终生成既保持身份特征又准确表达交互语义的合成图像。
背景与挑战
背景概述
Interact-Custom数据集由北京大学王选计算机研究所与Adobe研究院于2025年联合推出,专注于定制化人-物交互图像生成任务。该数据集旨在解决组合式定制图像生成中交互语义控制的缺失问题,通过构建包含相同人-物组合在不同交互姿态下的大规模样本,推动生成模型在身份保持与交互控制方面的能力突破。其创新性体现在首次系统化定义了人-物交互定制生成任务,为计算机视觉与多媒体领域提供了重要的基准数据支撑。
当前挑战
该数据集面临的核心挑战集中于两方面:在领域问题层面,需同时实现目标人-物的身份特征保持与动态交互语义控制,这对模型的特征解耦能力提出极高要求;在构建过程中,现有静态人-物交互数据集缺乏同一实体的多姿态样本,研究者通过图像姿态迁移与视频帧提取等创新方法,构建了涵盖85类物体与121种交互动作的百万级样本,但空间配置合理性验证与交互语义标注精度仍是持续优化的关键难点。
常用场景
经典使用场景
在计算机视觉与生成式人工智能领域,Interact-Custom数据集专为定制化人-物交互图像生成任务而设计,其核心应用场景聚焦于生成具有特定身份特征的人类与物体在多样化交互姿态下的合成图像。该数据集通过提供同一对人-物组合在不同交互动作下的样本,支持模型学习身份特征与姿态特征的解耦,典型应用于广告设计、虚拟内容创作等需要精确控制交互语义的领域。
实际应用
在实际应用中,Interact-Custom数据集支撑的生成模型可广泛应用于虚拟试穿、交互式广告生成、教育模拟内容制作等场景。例如,在电子商务领域,用户可指定特定人物与商品,生成自然交互的营销图像;在虚拟现实环境中,该技术能够快速构建符合用户自定义背景与位置的动态交互内容,显著提升了数字内容创作的效率与灵活性。
衍生相关工作
基于Interact-Custom数据集的研究催生了多类衍生工作,包括两阶段生成框架Interact-Custom的提出,其通过显式建模空间配置掩码优化交互语义表达。此外,该数据集启发了对组合式定制生成中特征解耦机制的深入探索,相关技术已被扩展至视频生成、跨模态交互检测等领域,为后续如语义感知生成、动态交互合成等研究方向提供了重要基础。
以上内容由遇见数据集搜集并总结生成



