Robo4D-200k

Name: Robo4D-200k
Creator: 南洋理工大学·S实验室; 香港中文大学（深圳）·SSE
Published: 2026-03-17 23:36:38
License: 暂无描述

arXiv2026-03-17 更新2026-03-19 收录

下载链接：

https://mutianxu.github.io/Kinema4D-project-page/

下载链接

链接失效反馈

官方服务：

资源简介：

Robo4D-200k是由南洋理工大学与香港中文大学（深圳）联合构建的大规模4D机器人交互数据集，包含20.1万条高质量标注的机器人动作序列与环境反应数据。该数据集通过真实世界捕获与合成生成相结合的方式构建，涵盖多视角RGB图像、点云序列及URDF模型驱动的精确运动轨迹，为4D生成式 embodied simulation 提供了丰富的时空交互样本。其核心应用于训练能够预测物理合理性和几何一致性的4D世界模型，旨在解决传统仿真器中视觉真实性不足与物理规则僵化的问题。

Robo4D-200k is a large-scale 4D robotic interaction dataset jointly constructed by Nanyang Technological University and The Chinese University of Hong Kong, Shenzhen. It contains 201,000 high-quality annotated robotic action sequences and environmental response data. Constructed via a combination of real-world capture and synthetic generation, this dataset covers multi-view RGB images, point cloud sequences, and precise motion trajectories driven by URDF models, providing rich spatio-temporal interaction samples for 4D generative embodied simulation. Its core application lies in training 4D world models capable of predicting physical plausibility and geometric consistency, aiming to address the problems of insufficient visual realism and rigid physical rules in traditional simulators.

提供机构：

南洋理工大学·S实验室; 香港中文大学（深圳）·SSE

创建时间：

2026-03-17

原始信息汇总

Kinema4D数据集概述

数据集名称

Kinema4D

数据集简介

Kinema4D是一个动作条件化的4D生成式机器人模拟器。给定一个包含处于规范设置空间中的机器人的初始世界图像，以及一个动作序列，该方法可在4D空间中生成未来的机器人-世界交互。

核心方法

运动学控制：给定一个带有URDF的3D机器人及其初始规范设置空间，以及一个动作序列，通过运动学驱动3D机器人以产生4D机器人轨迹，随后将其投影为点图序列。此过程将原始动作重新表示为时空视觉信号。
4D生成式世界建模：该信号与初始主视角世界图像被送入共享的VAE编码器，然后与占用对齐的机器人掩码和噪声融合，通过扩散变换器去噪，以生成完整的未来4D（点图+RGB）世界序列。

关联数据集：Robo4D-200k

为促进训练，构建了一个名为Robo4D-200k的大规模数据集。

规模：包含201,426个机器人交互片段。
数据质量：具有高质量的4D标注。
数据来源：通过聚合多样化的真实世界演示（包括DROID、Bridge和RT-1）构建，并进一步结合LIBERO以合成大量成功/失败案例。
数据特点：每个片段捕获一个完整的机器人-世界交互（例如，抓取-放置），提供了鲁棒推理所需的连续信息。

主要特点与验证

模拟能力：有效模拟物理上合理、几何一致且与具体机器人形态无关的交互，忠实地反映多样化的真实世界动态。
零样本迁移潜力：首次展示了潜在的零样本迁移能力。
定性对比：与TesserAct [ICCV 2025]进行4D定性比较，在成功任务完成和失败任务完成（特别是“接近成功”的失败案例）的模拟中，能更精确地反映真实情况（Ground-Truth）。
策略评估：
- 真实环境评估：结果与现实结果一致，能准确合成成功的执行过程和*“接近成功”的失败*。
- LIBERO模拟环境评估：对于成功的和*“接近成功”的失败*任务完成，能生成与真实情况相似的结果。
广泛结果展示：模拟了复杂机器人动作与多样物体之间、跨越各种空间约束和不同机器人形态的物理上合理且几何一致的交互。

引用信息

bibtex @article{xu2026kinema4d, title={Kinema4D: Kinematic4D World Modeling for Spatiotemporal Embodied Simulation}, author={Xu, Mutian and Zhang, Tianbao and Liu, Tianqi and Chen, Zhaoxi and Han, Xiaoguang and Liu, Ziwei}, journal={arXiv preprint arXiv:2603.16669}, year={2026} }

搜集汇总

数据集介绍

构建方式

在具身智能领域，高保真机器人交互模拟对推动算法发展至关重要。Robo4D-200k数据集通过整合多个领先的真实世界机器人演示库，包括DROID、Bridge和RT-1，并融合LIBERO平台合成的丰富交互序列，构建了大规模的四维交互数据。每个交互片段均经过严格的质控筛选，剔除低质量捕获和重建伪影，并通过均匀时间下采样确保运动频率的一致性。利用先进的四维重建框架ST-V2，将原始二维RGB视频提升至具有时空一致性的点云序列，从而为生成模型提供了精确的几何与运动标注。

特点

该数据集的核心特征在于其规模与标注质量，共包含201,426个高保真交互片段，覆盖了从简单抓取到复杂长时程操作等多种场景。每个片段均提供了像素对齐的四维点云序列，不仅捕捉了机器人本体的精确运动轨迹，还记录了环境物体的动态响应。这种时空一致的标注方式使得数据集能够支持对物理交互的细粒度建模。数据集的多样性体现在其融合了真实世界演示与合成数据，既包含了成功执行的案例，也涵盖了关键失败模式，为模型学习鲁棒的物理推理提供了全面基础。

使用方法

Robo4D-200k数据集主要用于训练和评估四维生成式具身模拟器，如Kinema4D。在使用时，研究者可将数据集中提供的初始世界图像、机器人动作序列以及对应的四维点云序列作为条件输入，驱动生成模型预测未来的机器人-世界交互。数据集支持对模型在视频生成质量、几何一致性以及策略评估等多方面的综合评测。通过分层抽样构建的验证集，能够有效衡量模型的泛化能力与零样本迁移潜力，为下一代具身模拟技术的开发提供了可靠的数据基础。

背景与挑战

背景概述

在具身人工智能领域，高保真机器人-世界交互仿真对于规模化策略评估与强化学习至关重要。Robo4D-200k数据集由南洋理工大学S-Lab与香港中文大学（深圳）SSE的研究团队于2026年创建，旨在支撑其提出的Kinema4D——一种基于动作条件的四维生成式机器人仿真器。该数据集的核心研究问题在于突破传统二维视频生成或静态环境引导的局限，将机器人-世界交互还原为其本质的四维时空事件，从而实现对复杂物理交互的高精度模拟。通过整合DROID、Bridge、RT-1等真实世界机器人演示数据以及LIBERO合成数据，Robo4D-200k提供了超过20万条带有高质量四维标注的交互片段，为下一代具身仿真模型奠定了大规模、多样化的数据基础，显著推动了时空感知与精确控制相结合的仿真范式发展。

当前挑战

Robo4D-200k数据集致力于解决具身仿真中四维时空建模的核心挑战，即在保证机器人运动学精确性的同时，生成物理合理且几何一致的环境动态反应。具体而言，其构建过程面临双重困难：一是从原始二维RGB视频中提取高质量的四维标注，需借助先进的时空重建技术（如ST-V2）来提升点云序列的时空一致性，并应对快速运动与遮挡带来的重建噪声；二是确保数据集的规模与多样性，需融合真实与合成数据源，并通过严格的质量筛选与时间下采样来保证交互片段的完整性与运动频率的统一性。这些挑战的克服使得数据集能够支持模型学习复杂物理交互的底层规律，并为零样本跨域迁移提供可能。

常用场景

经典使用场景

在具身人工智能领域，Robo4D-200k数据集作为Kinema4D框架的核心训练资源，其经典使用场景在于为4D生成式世界模型提供大规模、高质量的时空标注数据。该数据集通过整合真实世界与合成环境中的机器人交互轨迹，涵盖了从开门、拖拽变形物体到长时程抓放操作等多种复杂任务，为模型学习精确的机器人运动学控制与环境动态反应提供了丰富样本。这些数据不仅支撑了模型在视觉与几何层面的一致性生成，还促进了跨领域、跨形态的泛化能力，成为推动下一代具身模拟技术发展的关键基石。

衍生相关工作

Robo4D-200k数据集的推出，催生了一系列围绕4D生成式具身模拟的经典研究工作。以Kinema4D为代表，该框架首次将机器人运动学控制与扩散变换器相结合，实现了时空严谨性与生成灵活性的统一。后续研究如TesserAct、Ctrl-World等分别从文本指令控制、潜在嵌入等角度探索了不同的动作条件化策略，而4DNeX、Aether等工作则进一步推动了4D原生生成模型的发展。这些衍生成果共同丰富了具身模拟的技术图谱，促进了精确控制、时空感知与复杂动态建模之间的协同进化。

数据集最近研究