ManiFlow-110k

Name: ManiFlow-110k
Creator: 华南理工大学,腾讯机器人X,香港科技大学,琶洲实验室
Published: 2025-06-07 00:00:31
License: 暂无描述

arXiv2025-06-07 更新2025-06-11 收录

下载链接：

https://github.com/Hoyyyaard/3DFlowAction/

下载链接

链接失效反馈

官方服务：

资源简介：

ManiFlow-110k是一个大规模的3D光学流数据集，包含110000个实例，用于预训练。该数据集通过一个移动对象自动检测流程合成，旨在从人类和机器人操作数据中学习3D流世界模型。该模型预测交互对象在3D空间中的未来运动，指导操作动作规划。数据集内容丰富，包含不同对象、背景、机器人形态和任务，能够有效解决机器人操作技能学习中的挑战，推动该领域的发展。

ManiFlow-110k is a large-scale 3D optical flow dataset containing 110,000 instances for pre-training. This dataset is synthesized via an automated moving object detection pipeline, and is designed to learn 3D flow world models from human and robotic manipulation data. The model predicts the future motion of interacting objects in 3D space to guide manipulation action planning. The dataset covers rich content including diverse objects, backgrounds, robot morphologies and tasks, which can effectively address the challenges in robotic manipulation skill learning and promote the development of this field.

提供机构：

华南理工大学,腾讯机器人X,香港科技大学,琶洲实验室

创建时间：

2025-06-07

搜集汇总

数据集介绍

构建方式

ManiFlow-110k数据集的构建采用了一种创新的移动物体自动检测流程，通过多源开源机器人及人类操作视频的整合，实现了高质量3D光流数据的合成。研究团队首先利用Grounding-SAM2模型从视频首帧分割机械夹爪掩膜，随后通过Co-tracker3模型追踪全帧分布点的运动轨迹，精准识别被操作物体的位移特征。在获取2D光流数据后，结合DepthAnythingV2深度预测技术将二维运动信息投影至三维空间，最终形成包含11万实例的标准化3D光流数据集。该流程在BridgeV2数据集上验证显示，移动物体检测准确率超过80%，确保了数据标注的可靠性。

特点

作为当前规模最大的3D操作光流数据集，ManiFlow-110k具有三个显著特征：其三维表征能力可完整捕捉物体在空间中的旋转与垂直运动，突破了传统2D光流的平面局限；通过对象中心化设计有效过滤了背景干扰，使学习焦点集中于被操作物体的物理运动规律；数据来源覆盖多样化机器人平台与人类操作场景，赋予模型强大的跨本体泛化能力。特别值得注意的是，数据集包含的四维光流特征（二维坐标、深度及可见性）为理解三维空间中的物体运动提供了完备的数学描述。

使用方法

该数据集主要服务于3D光流世界模型的训练，其应用包含三个关键环节：研究人员首先基于CLIP编码器对初始RGB观察和任务提示进行特征提取，通过视频扩散模型生成符合指令的3D物体运动轨迹；随后采用流引导渲染机制，利用奇异值分解计算变换矩阵并渲染预测状态，通过GPT-4o验证光流预测的准确性，实现闭环规划；最终将预测光流作为优化策略的约束条件，通过最小化光学流点位置差异求解机械臂动作序列。这种流程无需机器人动作标注即可实现端到端的操作策略生成，在Franka和XTrainer等不同机器人平台上均表现出优异的跨本体适应能力。

背景与挑战

背景概述

ManiFlow-110k数据集由华南理工大学、腾讯机器人X等机构的研究团队于2025年提出，旨在解决机器人操作任务中跨本体统一动作表征的核心问题。该数据集通过创新的移动物体自动检测流程，从多源人类和机器人操作视频中提取三维光流数据，构建了包含11万样本的大规模3D光流演示库。作为首个面向物体中心运动表征的跨本体数据集，其创新性地将3D光流作为与本体无关的动作指导信号，推动了从传统2D视频预测到3D物理运动建模的范式转变，为机器人学习人类操作技能提供了新的研究路径。

当前挑战

该数据集面临双重挑战：在领域问题层面，需克服2D光流无法完整表征三维空间物体运动（如垂直相机平面的位移和旋转）的固有局限，同时解决现有操作数据集中动作空间异构（如不同坐标系下的关节角度与末端执行器位姿）导致的泛化难题；在构建过程层面，研究团队需开发鲁棒的移动物体检测管道以应对原始视频中复杂背景干扰和相似物体干扰，并通过深度预测与2D-3D投影转换确保光流标注的几何一致性，此外还需设计基于GPT-4o的闭环验证机制来保证生成光流的任务相关性。

常用场景

经典使用场景

ManiFlow-110k数据集在机器人操作学习领域中被广泛用于训练3D流世界模型，以预测物体在三维空间中的运动轨迹。该数据集通过大规模的光流数据，为机器人提供了对象中心和跨具身的运动线索，使其能够在不同场景和任务中实现精确的操作规划。

衍生相关工作

基于ManiFlow-110k，研究者们开发了多项经典工作，如3DFlowAction框架。该框架利用数据集训练的3D流世界模型，实现了跨具身的操作规划，并在多个复杂任务中展示了优异的性能。此外，数据集还推动了光学流在机器人操作中的进一步应用和研究。

数据集最近研究