ActionGenome4D
收藏arXiv2026-03-14 更新2026-03-17 收录
下载链接:
https://github.com/rohithpeddi/WorldSGG
下载链接
链接失效反馈官方服务:
资源简介:
ActionGenome4D是由德克萨斯大学达拉斯分校和印度理工学院德里分校联合构建的4D时空场景数据集,通过升级Action Genome视频数据形成。该数据集采用π3模型进行单目视频的3D重建,生成世界坐标系下的定向3D边界框,并包含遮挡或相机运动导致的暂时未观测对象的密集关系标注。数据集包含几何标注(GDINO检测+SAM2分割)和语义标注(基于VLM的关系伪标注),旨在支持世界场景图生成任务,解决传统帧中心方法在物体消失和时空一致性方面的局限性,适用于机器人交互和物理推理等需要长期场景理解的领域。
ActionGenome4D is a 4D spatiotemporal scene dataset co-developed by the University of Texas at Dallas and the Indian Institute of Technology Delhi, upgraded from the Action Genome video dataset. This dataset adopts the π3 model to conduct monocular video 3D reconstruction, generating oriented 3D bounding boxes in the world coordinate system, and includes dense relational annotations for temporarily unobserved objects caused by occlusion or camera motion. The dataset contains geometric annotations (GDINO detection + SAM2 segmentation) and semantic annotations (relationship pseudo-annotations based on VLMs), aiming to support the world scene graph generation task. It addresses the limitations of traditional frame-centric methods in terms of object disappearance and spatiotemporal consistency, and is applicable to domains requiring long-term scene understanding such as robot interaction and physical reasoning.
提供机构:
德克萨斯大学达拉斯分校; 印度理工学院德里分校
创建时间:
2026-03-14
原始信息汇总
WorldSGG数据集概述
数据集基本信息
- 数据集名称: ActionGenome4D
- 任务背景: 面向时空世界场景图生成(World Scene Graph Generation, WSGG)任务,该任务涉及在连续的4D场景设置中预测物体的3D边界框及其关系属性(如注意力、空间邻近性和接触)。
- 数据来源: 单目视频
- 状态: 正在更新中,预计于2026年6月发布
数据集内容与特点
- 数据类型: 提供丰富的4D标注,涵盖物体及其随时间变化的动态交互。
- 场景范围: 涵盖多种室内环境。
- 标注维度: 包含时间维度,构成4D(3D空间+时间)场景表示。
数据处理与构建流程
- 4D场景构建流程: 处理单目视频以构建环境的综合4D表示,整合了3D物体检测、跟踪和跨时间的度量空间投影。
- 人工标注与校正:
- 关系校正: 提供人工介入的界面,用于审查和细粒度修改生成的关系,确保高质量的真实标注。
- 3D地面校正: 提供3D标注界面,用于将重建的点云与地面对齐。通过旋转和平移调整的多步骤过程,校正地面对齐,确保场景中所有物体在世界坐标系中的准确性。
相关模型与评估
- WSGG模型架构: 包含专用编码器(结构、运动、相机姿态)、未观测物体表示(如PWG、MWAE和4DST变体)以及时空解码器,用于预测4D中的复杂物体关系。
- 评估方法: 包含多模态大语言模型评估流程,利用视觉语言模型生成粗略的事件图,并采用由Graph RAG支持的大语言模型从视频片段推断连续的世界场景图。
发布计划
- 预计发布时间: 2026年6月
- 预计发布内容:
- ActionGenome4D标注
- 训练好的模型检查点
- VLM评估代码
搜集汇总
数据集介绍

构建方式
在视频场景理解领域,传统方法受限于瞬时相机视角,无法对遮挡或移出视野的物体进行持续推理。ActionGenome4D数据集通过系统性的升级流程,将Action Genome视频转化为四维时空表征。其构建始于利用π3模型对单目视频进行前馈式三维重建,获得每帧的点云与相机位姿。随后,结合Grounding DINO检测与SAM2分割,为所有参与动作的物体生成世界坐标系下的三维定向包围盒。语义标注方面,通过基于检索增强生成的视觉语言模型流程,为包括未观测物体在内的所有物体对生成密集关系伪标注,并辅以人工校正,最终形成了涵盖观测与未观测物体的完整世界场景图。
特点
该数据集的核心特征在于其世界中心与时空持久性。它突破了传统视频场景图生成任务的帧中心局限,将场景理解锚定于一个全局的三维世界坐标系。所有物体,无论其在当前帧中是否可见,均通过三维定向包围盒在共享的世界帧中持续定位。数据集提供了涵盖注意力、空间和接触三大类别的密集关系标注,特别扩展了对因遮挡或相机运动而暂时不可见物体的关系描述。这种设计使得模型能够进行全局的、视角独立的场景推理,为需要物体持久性认知的下游任务,如机器人导航与长时程活动理解,提供了至关重要的数据基础。
使用方法
ActionGenome4D数据集主要用于支持世界场景图生成任务的模型训练与评估。研究者可利用其提供的三维几何支架、相机位姿及密集关系标注,开发能够推理全场景物体状态的模型。典型的使用流程包括:首先,加载数据集中预计算的三维场景、物体包围盒及关系标签;继而,设计模型架构以融合视觉特征、三维几何与时间上下文,预测包含未观测物体在内的完整世界场景图;最后,在数据集划分的测试集上,依据召回率等指标评估模型在谓词分类和端到端检测等不同协议下的性能。该数据集也为评估视觉语言模型在未定位关系预测上的能力提供了基准。
背景与挑战
背景概述
ActionGenome4D数据集由德克萨斯大学达拉斯分校和印度理工学院德里分校的研究团队于2026年提出,旨在解决现有视频场景图生成方法在时空推理上的根本局限。传统方法通常局限于帧中心视角,仅处理当前可见物体,并在物体被遮挡或移出视野时将其从图中丢弃,且工作在二维图像空间。该数据集通过将Action Genome视频升级为四维场景,提供了基于前馈三维重建的世界坐标系定向边界框,并为所有涉及动作的物体(包括因遮挡或相机运动而暂时不可见的物体)标注了密集的关系。其核心研究问题是推动视频场景理解向以世界为中心、具有时间持久性和可解释性的场景推理迈进,对机器人学、具身智能和长期活动理解等领域产生了深远影响。
当前挑战
ActionGenome4D数据集面临的挑战主要体现在两个方面。在领域问题层面,其旨在解决的世界场景图生成任务要求模型能够对单目视频中所有交互物体(包括观察到的和未观察到的)进行三维定位并预测其语义关系,这超越了传统的二维或仅处理可见物体的视频场景图生成,对模型的时空一致性和物体持久性推理能力提出了极高要求。在构建过程层面,挑战包括如何从单目视频中通过前馈神经网络(如π3)可靠地重建每帧的三维场景并估计相机位姿,如何结合基础模型(如GDINO、SAM2)自动生成世界坐标系下的三维定向边界框并进行时序平滑,以及如何为未观察物体生成密集且准确的语义关系伪标注,这通常需要结合基于检索增强生成的视觉语言模型流程与人工校正,以确保标注质量。
常用场景
经典使用场景
在视频场景理解领域,ActionGenome4D数据集为世界场景图生成任务提供了基准支持。该数据集通过将Action Genome视频升级为包含三维重建、世界坐标系定向边界框和密集关系标注的4D场景,构建了一个时空持久的世界状态表示。其最经典的使用场景是训练和评估能够从单目视频中生成世界场景图的模型,这些模型不仅需要处理当前可见的物体,还需推理因遮挡或相机运动而暂时不可见的物体,从而实现对动态场景的全局、与视角无关的语义理解。
解决学术问题
ActionGenome4D数据集主要解决了传统视频场景图生成方法中存在的三个核心学术问题。首先,它突破了帧中心范式的局限,传统方法仅处理当前可见物体,并在物体离开视野时将其从图中丢弃。其次,该数据集提供了三维空间基础,将物体定位在共享的世界坐标系中,而非二维图像平面,实现了场景理解的几何一致性。最后,它引入了对未观测物体的关系标注,推动了模型对物体持久性的认知建模,这对于机器人学、具身智能等需要长期世界状态跟踪的下游任务至关重要。
衍生相关工作
基于ActionGenome4D数据集,研究者提出了多种创新的世界场景图生成方法,衍生了一系列经典工作。论文中提出的PWG方法通过持久性世界图实现了基于物体持久性的特征缓冲机制。MWAE方法将未观测物体推理重构为掩码自编码器的补全问题,利用跨视图关联检索。4DST方法则采用可微分的每物体时序注意力,融合三维运动和相机位姿特征。这些方法共同探索了处理未观测物体的不同归纳偏置,为后续研究提供了坚实的架构基础。此外,该数据集也催生了对开源视觉-语言模型在世界场景图生成任务上的系统性评估,建立了无定位关系预测的基线,推动了多模态大模型在结构化场景理解方向上的能力探索。
以上内容由遇见数据集搜集并总结生成



