ABot-PhysWorld

Name: ABot-PhysWorld
Creator: 阿里巴巴集团·AMAP CV实验室
Published: 2026-03-25 00:07:09
License: 暂无描述

arXiv2026-03-25 更新2026-03-26 收录

下载链接：

https://github.com/amap-cvlab/ABot-PhysWorld

下载链接

链接失效反馈

官方服务：

资源简介：

ABot-PhysWorld是由阿里巴巴AMAP CV实验室构建的机器人操作视频数据集，整合了AgiBot等五大开源数据集的三百万条视频片段。数据集通过光学流运动过滤、CLIP时序一致性检测等多阶段质量控制，确保视频包含真实的物理交互动态。采用分层动态采样策略平衡机器人类型、任务场景的分布，并创新性地通过Qwen3-VL模型生成四阶段物理感知标注，涵盖场景配置、动作细节等深度语义信息。该数据集专为训练物理合规的具身世界模型设计，可应用于机器人仿真、动作规划等领域，解决传统视频生成模型物理一致性不足的核心问题。

ABot-PhysWorld is a robotic manipulation video dataset constructed by Alibaba AMAP CV Laboratory. It integrates 3 million video clips from five open-source datasets including AgiBot. The dataset adopts multi-stage quality control measures such as optical flow motion filtering and CLIP-based temporal consistency detection to ensure that the videos contain realistic physical interaction dynamics. It employs a hierarchical dynamic sampling strategy to balance the distribution of robot types and task scenarios, and innovatively generates four-stage physically-aware annotations via the Qwen3-VL model, which covers in-depth semantic information including scene configuration and action details. This dataset is specifically designed for training physically compliant embodied world models, and can be applied to fields such as robot simulation and motion planning, addressing the core issue of insufficient physical consistency in traditional video generation models.

提供机构：

阿里巴巴集团·AMAP CV实验室

创建时间：

2026-03-25

原始信息汇总

ABot-PhysWorld 数据集概述

数据集基本信息

数据集名称: ABot-PhysWorld
发布机构: AMAP CV Lab
核心定位: 一个物理一致、动作可控的机器人操作视频世界模型。
模型基础: 基于140亿参数的扩散变换器（Diffusion Transformer）构建。
核心目标: 生成真实且物理合理的机器人-物体交互视频，即使在零样本设置下。

关键贡献

工业级数据管道
- 从五个数据集（AgiBot, RoboCoin, RoboMind, Galaxea, OXE）中筛选了约300万个真实世界操作视频片段。
- 应用了运动、语义和动作一致性过滤。
- 采用分层采样以实现平衡的泛化能力。
物理感知的DPO训练
- 引入解耦的基于VLM的判别器：Qwen3-VL生成任务特定的物理检查清单，Gemini 3 Pro通过思维链对视频进行评分。
- 结合LoRA增强的DPO在14B DiT模型上执行，以强制物理合理性。
用于动作控制的并行上下文块
- 通过将空间动作图残差注入到克隆的DiT块中，实现精确的动作条件生成。
- 在支持跨具身控制的同时，保留了物理先验。
EZSbench——首个真正的零样本基准
- 完全独立于训练数据的评估，涵盖未见过的机器人、场景和任务组合。
- 采用双模型评分以消除自评估偏差。

评估基准与性能

评估基准:
- 物理一致性: 通过PBench和EZSbench评估。
- 零样本泛化: 通过EZSbench评估。
- 动作条件可控性: 通过自定义的A2V基准评估。
性能总结: | 能力 | 基准 | ABot-PhysWorld | 最佳基线 | 提升 | | :--- | :--- | :--- | :--- | :--- | | 物理保真度 | PBench (领域得分) | 0.9306 | 0.8644 (Wan2.5) | +6.62% | | 零样本泛化 | EZSbench (领域得分) | 0.8366 | 0.7951 (WoW) | +4.15% | | 动作控制 | 轨迹一致性 | 0.8522 | 0.8157 (Enerverse) | +3.65% |

定性结果展示

展示了模型在多种零样本场景下的生成能力，证明了其强大的泛化能力和物理合理性。

场景1: 可变形物体——双臂折叠毛巾：展示了复杂的布料动力学和双手协调。
场景2: 精细操作——多样化物体处理：展示了堆叠杯子、搭建积木、放置刀具等任务。
场景3: 铰接物体——打开柜门：展示了执行旋转约束和正确施力方向。
场景4: 流体交互——倒水：展示了双手协调、倾斜控制和液体动力学。
场景5: 清洁任务——擦拭污渍：展示了保持接触、均匀压力和全覆盖。
场景6: 多场景泛化——水果分类：展示了在不同背景、光照和水果变化下的鲁棒性。
PBench结果演示：在PAI-Bench基准数据集上的系统定性比较实验。

使用指南

快速开始：视频生成推理

环境要求：
- Python 3.10。
- PyTorch with CUDA。
- 推荐VRAM: >= 60GB（最佳性能，无需分块）。
- 最低VRAM: >= 24GB（默认启用分块VAE）。
推理方式：
1. 从图像+文本提示生成视频：使用 inference.py 脚本，支持单张图像或批量JSONL文件输入。
2. 关键参数：可指定视频分辨率、帧数、去噪步数、分类器自由引导尺度等。

模型权重

自动下载：首次运行推理时，微调后的检查点会自动从 ModelScope (https://www.modelscope.cn/models/amap_cvlab/Abot-PhysWorld) 下载。
基础模型：Wan2.1-I2V-14B-480P 由 DiffSynth-Studio 自动下载。

引用

如需在研究中引用此工作，请使用提供的BibTeX条目。

致谢

该项目基于多个开源项目构建，包括 Wan2.1、VACE、DiffSynth-Studio、VideoX-Fun、Qwen3、Qwen3-VL、Physical AI Bench、FantasyTalking2。

搜集汇总

数据集介绍

构建方式

在具身智能领域，构建高质量的视频世界模型依赖于大规模且物理一致的交互数据。ABot-PhysWorld数据集的构建始于对五个公开具身数据集（AgiBot、RoboCoin、RoboMind、Galaxea、OXE）中近三百万个真实世界操作视频片段的整合。通过视频级质量门控、基于光流的运动过滤、CLIP时序连贯性检查以及视觉-动作对齐验证等多阶段语义过滤，有效剔除了分辨率异常、相机移动、视觉损坏及动作不匹配的噪声数据。进一步采用分层动态采样策略，在视频、机器人类型、任务和宏观数据集四个层级上进行分布平衡，既防止头部任务过拟合，又完整保留长尾交互模式以最大化任务多样性。最后，通过物理感知的视频标注流程，利用视觉语言模型提取结构化物理属性并生成涵盖场景设置、动作细节、状态转换和相机视角的四阶段描述，为模型训练提供了物理因果性强的语义监督。

特点

该数据集的核心特征在于其深度集成的物理对齐与动作可控性。数据集中的视频片段均经过严格的物理一致性筛选，显著减少了物体穿透、反重力运动等违反物理定律的现象，为训练提供了高保真的交互信号。其标注系统突破了传统表面描述，深入捕捉机器人操作的宏观任务意图、细粒度空间接触关系及微观物理因果，例如重力导致的掉落或表面形变，形成了层次化的动作语义结构。此外，数据集通过分层平衡技术确保了跨机器人平台、任务类别和场景环境的组合多样性，特别是对罕见机器人构型和长尾任务的充分保留，增强了模型在未见场景下的零样本泛化能力。这些特征共同支撑了生成视觉逼真、物理合理且动作可精确控制的视频序列。

使用方法

ABot-PhysWorld数据集主要用于训练和评估具身视频生成模型，特别是面向机器人操作的世界模型。研究者可将该数据集用于监督微调（SFT）阶段，使扩散变换器骨干网络学习从观察和指令预测未来帧。随后，可利用数据集衍生的物理偏好对齐流程，通过解耦的视觉语言模型判别器生成任务特异性物理检查清单，并基于扩散直接偏好优化（Diffusion-DPO）框架对模型进行后训练，以主动抑制非物理行为。对于动作条件生成任务，数据集提供的校准动作图可与视频帧对齐，通过并行上下文块注入空间动作信息，实现跨具身的精确轨迹控制。为评估模型泛化性能，可结合其配套的EZSbench基准，该基准采用解耦的双模型评估协议，在训练分布之外的机器人-任务-场景组合上分别评估物理真实性和动作对齐度。

背景与挑战

背景概述

在具身智能领域，视频世界模型为机器人仿真与规划提供了强大的模拟范式，然而现有模型常因训练数据缺乏物理交互信号而产生物体穿透、反重力运动等违背物理规律的现象。为此，阿里巴巴集团AMAP CV实验室于2026年3月发布了ABot-PhysWorld数据集，该数据集整合了五大规模开源具身数据集，构建了包含三百万段物理感知标注的机器人操作视频片段。其核心研究目标在于解决视频生成模型在物理合理性方面的缺陷，通过精心设计的数据筛选、分层平衡与物理感知标注流程，为训练具备物理一致性的世界模型奠定了数据基础，显著推动了具身视频生成领域向高保真物理仿真的演进。

当前挑战

ABot-PhysWorld旨在解决具身视频生成中物理合理性不足的核心挑战，具体表现为模型难以准确模拟摩擦力、碰撞响应等精细物理动力学，导致生成序列出现非物理接触或运动轨迹失真。在数据集构建过程中，研究团队面临多重挑战：原始视频数据存在视觉噪声与时空不对齐问题，需通过光流分析与动作映射验证进行清洗；为保障模型泛化能力，必须设计分层动态采样策略以平衡不同机器人形态、任务类型与场景分布，避免头部任务过拟合；此外，生成兼具空间精度与因果推理的物理感知标注亦需克服模板化描述导致的幻觉问题，这要求构建多级语义解析与叙事合成框架来实现对交互过程的深度刻画。

常用场景

经典使用场景

在具身智能与机器人操作领域，视频世界模型为模拟与规划提供了关键基础设施。ABot-PhysWorld数据集的核心应用场景在于训练能够生成物理可信且动作可控的具身操作视频的扩散变换器模型。该数据集整合了来自AgiBot、RoboCoin等五大开源具身数据集的约三百万个真实世界操作片段，并辅以物理感知的精细化标注。其经典使用方式是为模型提供包含初始状态、文本指令及动作序列的输入，模型据此预测出既符合视觉真实性又遵循物理定律的未来帧序列，从而作为高保真的仿真器服务于机器人策略的离线训练与验证。

实际应用

ABot-PhysWorld数据集的实际价值在机器人技术的多个环节得以体现。它能够为机器人策略学习提供高保真、低成本的仿真环境，加速视觉-语言-动作策略的训练与迭代。在任务规划层面，模型可根据给定的动作指令生成可解释的未来轨迹预览，辅助人类操作员进行决策验证与风险预判。此外，该数据集支撑的模型可直接作为世界动作模型，预测动作条件化的动态变化，服务于跨平台、跨形态的机器人控制。这些应用显著降低了真实机器人实验的硬件损耗与时间成本，提升了机器人系统在复杂、非结构化环境中执行操作任务的可靠性与泛化能力。

衍生相关工作

ABot-PhysWorld数据集及其伴随的模型框架，催生并紧密关联于一系列具身智能领域的经典与前沿工作。其提出的基于DPO的物理偏好对齐框架，为后续如PhyGDPO、PhysCorr等研究提供了直接的优化范式与灵感。数据集构建中采用的分层动态采样与物理感知标注方法，被广泛借鉴用于提升其他具身数据集的多样性与质量。更重要的是，该工作首创的EZSbench评估基准，首次提出了训练无关的零样本评测协议，将物理一致性与动作对齐的解耦评估标准化，成为该领域后续模型性能对比的关键标尺，引领了具身视频生成评估从域内保真度向跨域泛化能力聚焦的新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集