InterVLA

Name: InterVLA
Creator: 上海交通大学人工智能研究院
Published: 2025-08-07 01:46:23
License: 暂无描述

arXiv2025-08-07 更新2025-08-08 收录

下载链接：

https://yxuy.u1t/InterVLA/

下载链接

链接失效反馈

官方服务：

资源简介：

InterVLA是一个大规模的人-物-人交互数据集，涵盖了多样化的交互模式和稳定的自我视角感知。该数据集包含3.9K序列，总时长11.4小时，共1.2M帧的多模态交互数据，包括自我视角和外部视角的RGB视频、语言命令和高精度的人/物运动。InterVLA数据集的收集过程是在视觉-语言-行动框架下进行的，其中助手根据自我视角的视觉和语言命令为导师提供服务。数据集的创建过程包括场景设置、数据收集、数据处理等多个环节，旨在促进通用人工智能的发展。

InterVLA is a large-scale human-object-human interaction dataset that encompasses diverse interaction patterns and robust egocentric perception. This dataset comprises 3.9K sequences with a total duration of 11.4 hours and 1.2 million frames of multimodal interaction data, including RGB videos from both egocentric and exocentric perspectives, linguistic commands, and high-precision human and object motion data. The collection of the InterVLA dataset is carried out under the vision-language-action framework, where an assistant serves a tutor based on egocentric visual inputs and linguistic commands. The creation of this dataset involves multiple stages including scene setup, data collection, and data processing, with the goal of advancing the development of artificial general intelligence (AGI).

提供机构：

上海交通大学人工智能研究院

创建时间：

2025-08-07

搜集汇总

数据集介绍

构建方式

InterVLA数据集的构建采用了多模态数据采集系统，结合了视觉、语言和动作三个维度的信息。通过混合RGB-MoCap系统，研究人员捕捉了11.4小时的多模态交互数据，包括3.9K个序列和1.2M帧的视觉数据。具体而言，数据集通过两个头戴式GoPro摄像头捕捉第一人称视角视频，五个外中心摄像头提供全局场景视角，同时利用光学动作捕捉系统精确记录人体和物体的运动轨迹。语言指令部分则通过GPT生成的脚本精心设计，涵盖了多样化的场景布置和交互类型。

特点

InterVLA数据集的核心特点在于其多模态性和第一人称视角的全面覆盖。数据集不仅包含高精度的RGB视频和动作捕捉数据，还整合了语言指令，形成了一个完整的视觉-语言-动作框架。其独特之处在于强调了AI助手基于第一人称感知和反应的能力，弥补了现有数据集中缺乏第一人称视角的不足。此外，数据集涵盖了多样化的交互类别，包括人-物-人交互、多物体操作和导航任务，为研究通用智能体提供了丰富的场景支持。

使用方法

InterVLA数据集适用于多个研究任务，包括第一人称人体运动估计、交互合成和交互预测。研究人员可以利用数据集中的多模态信息，训练模型从第一人称视角理解环境并生成适当的反应。具体而言，数据集可用于开发基于视觉和语言输入的智能体行为生成算法，或用于评估模型在复杂交互场景中的表现。此外，数据集还支持稀疏视角4D场景重建、手-物交互重建等下游任务，为计算机视觉和机器人学领域的研究提供了重要资源。

背景与挑战

背景概述

InterVLA数据集由上海交通大学人工智能研究院等机构于2025年发布，是首个以第一人称视角记录的大规模人-物-人交互数据集。该数据集通过混合RGB-MoCap系统采集，包含3.9K个交互序列、11.4小时多模态数据，涵盖2个自我中心视角和5个外部视角视频，精确捕捉了50种日常物品的操作轨迹和语言指令。其创新性地将人工辅助任务嵌入视觉-语言-动作框架，解决了现有数据集在通用交互知识和自我中心感知方面的缺失，为构建物理世界AI助手提供了重要基准。

当前挑战

InterVLA面临双重挑战：在领域问题上，需克服自我中心视角下的快速相机运动、视野局限和遮挡等问题，以实现精准的全身运动估计；在构建过程中，需协调多模态数据同步、处理反射标记对RGB保真度的影响，并解决大规模场景布置与脚本设计的复杂性。此外，多物体交互的连贯性建模、手部精细动作的精确捕捉，以及从稀疏信号重建动作等技术难题，均为该数据集带来显著挑战。

常用场景

经典使用场景

InterVLA数据集在计算机视觉和机器人学领域中被广泛用于研究第一人称视角下的人-物-人交互行为。该数据集通过多模态数据捕捉，包括第一人称和第三人称RGB视频、高精度人体和物体运动数据以及语言指令，为研究者提供了一个全面的实验平台。其经典使用场景包括智能助手的开发，例如家庭服务机器人通过理解人类指令并执行相应动作，如传递物品或协助完成日常任务。

解决学术问题

InterVLA数据集解决了多个学术研究问题，特别是在第一人称视角下的动作理解和交互预测方面。该数据集填补了现有数据集中缺乏通用交互场景和第一人称感知的空白，为研究者提供了丰富的多模态数据以开发更智能的AI助手。其意义在于推动了人机交互、动作合成和运动预测等领域的研究，为构建能够在物理世界中实际部署的智能代理提供了重要支持。

衍生相关工作

InterVLA数据集衍生了许多相关研究工作，特别是在人机交互和动作生成领域。基于该数据集，研究者开发了多种基准模型，如第一人称人体运动估计、交互合成和交互预测等。这些工作不仅推动了基础研究的进展，还为实际应用提供了技术支撑。例如，一些研究利用该数据集开发了能够理解和预测人类动作的智能助手，进一步拓展了数据集的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集