InterAct

Name: InterAct
Creator: 香港大学
Published: 2025-09-06 23:36:47
License: 暂无描述

arXiv2025-09-06 更新2025-11-24 收录

下载链接：

https://hku-cg.github.io/interact/

下载链接

链接失效反馈

官方服务：

资源简介：

InterAct是一个大规模的多模态数据集，捕捉了日常场景中两个人之间的动态、表达性和互动性活动。数据集由241个运动序列组成，每个序列中两个人进行一分钟的表演，涵盖了从日常事件到超自然现象的各种主题。该数据集不仅捕捉了身体动作，还包括面部表情和语音，从而提供了一个全面了解人类行为的视角。InterAct数据集旨在解决目前多模态数据集中缺乏长时间、大范围互动行为捕捉的问题，对于两个人体运动生成、运动估计以及改进现有模型的人类行为基础等方面具有重要作用。

InterAct is a large-scale multimodal dataset that captures dynamic, expressive, and interactive activities between two individuals in daily scenarios. The dataset consists of 241 motion sequences, each containing a 1-minute-long interaction performed by two people, covering a wide range of topics from daily events to supernatural phenomena. This dataset not only captures bodily movements, but also facial expressions and speech, thus providing a comprehensive perspective for understanding human behavior. The InterAct dataset aims to address the current gap in long-duration, large-scale interactive behavior capture within multimodal datasets. It plays a critical role in areas such as two-person motion generation, motion estimation, and improving the human behavior fundamentals of existing models.

提供机构：

香港大学

创建时间：

2025-09-06

搜集汇总

数据集介绍

构建方式

在人际交互研究领域，传统数据集多聚焦于单人行为或静态对话场景，难以捕捉动态交互的复杂性。InterAct数据集通过多模态同步采集技术，构建了包含241个双人日常交互序列的大规模数据库。采用28摄像头VICON光学动作捕捉系统记录身体运动轨迹，结合头戴式iPhone设备同步采集面部网格动画与语音信号。每个序列由两名演员在5m×5m空间内进行一分钟以上的即兴表演，涵盖26种情感类型和多样化社会关系，并通过无线时间码发生器实现跨设备帧级同步，确保多模态数据的时间对齐精度。

特点

该数据集的核心价值体现在其动态交互的时空扩展性上。相较于现有数据集局限于小范围对话姿态，InterAct首次实现了双人长时序、大空间跨度的连贯交互记录。数据包含全身53个标记点与20个手部标记点的精细运动轨迹，辅以ARKit格式的面部混合形状参数，呈现出丰富的非语言交互模式。统计特征显示个体运动熵值在专业场景和积极情绪中显著提升，面部顶点方差分析进一步揭示了面向交互时唇部运动的增强效应，为理解人际互动中的潜意识行为提供了量化依据。

使用方法

该数据集为双人交互生成任务提供了标准化基准。研究者可通过语音信号驱动分层扩散模型，联合生成双方面部表情与全身运动。身体运动合成采用层级机制，先基于梅尔频谱和BERT特征重建下肢运动，再条件生成上肢动作；面部动画则通过改进的扩散变换器架构，融入面向姿态编码与精细化唇部微调策略。数据集的角色标签、动作模式和情感标注支持条件生成研究，其提供的10小时多模态序列适用于训练交互感知的生成模型，推动社交机器人、虚拟角色等应用场景的技术发展。

背景与挑战

背景概述

InterAct数据集由香港大学与转化服装生产中心等机构联合开发，聚焦于双人日常交互行为的精确捕捉。该数据集构建于2025年，核心研究团队包括Leo Ho、Yinghao Huang等学者，旨在解决传统方法对动态交互建模的局限性。通过记录241段多模态序列，涵盖语音、身体运动与面部表情的同步采集，InterAct推动了人机交互、虚拟角色动画等领域的发展，为理解复杂社交行为提供了数据基础。

当前挑战

在领域问题层面，InterAct需应对双人交互中语义一致性、长期动态行为建模等挑战，例如如何同步生成自然的面部表情与肢体动作。构建过程中，多模态数据的时间同步、标记点遮挡以及面部网格到参数化表达的转换精度构成主要难点，同时需平衡演员表演的真实性与数据采集的物理限制。

常用场景

经典使用场景

在计算机图形学与人工智能交叉领域，InterAct数据集为双人交互行为建模提供了关键支撑。该数据集通过同步捕捉241组动态交互序列，涵盖日常场景中两人协作、对话、情感交流等多元互动模式，其多模态特性（语音、身体运动、面部表情）使其成为研究交互行为生成模型的理想基准。典型应用包括训练扩散模型从语音输入生成协调的面部表情与全身运动，推动虚拟角色交互动画的真实性突破。

衍生相关工作

InterAct催生了多项关于多模态交互生成的前沿研究。其基线方法提出的分层扩散架构启发了后续对双人运动生成的改进，如引入物理约束的碰撞避免机制、结合大语言模型的语义控制框架。数据集蕴含的丰富关系-情感标签推动了社交情境下行为预测模型的发展，例如基于元关系分类的交互风格迁移研究。此外，其精细的面部捕捉数据为情感 disentanglement 研究提供了新基准，促进了音频驱动动画中内容与情绪解耦技术的演进。

数据集最近研究