ACWM-Phys
收藏github2026-05-15 更新2026-05-19 收录
下载链接:
https://github.com/xavihart/ACWM-Phys-dev
下载链接
链接失效反馈官方服务:
资源简介:
ACWM-Phys是一个用于评估在不同物理动力学下动作条件视频世界模型的基准数据集。它涵盖4种物理体系中的8个环境:刚体(推立方体、堆叠立方体)、可变形体(推绳子、布料移动)、粒子(推沙子、倒水)和运动学(机械臂、Reacher)。每个环境提供1000个训练轨迹以及受控的分布内和分布外测试分割。数据集包含RGB视频和元数据(动作序列、长度、随机种子等),用于物理交互研究。
ACWM-Phys is a benchmark dataset for evaluating action-conditioned video world models under diverse physical dynamics. It encompasses 8 environments spanning 4 physical categories: rigid bodies (cube pushing, cube stacking), deformable objects (rope pushing, cloth movement), particles (sand pushing, water pouring), and kinematics (robotic arm, Reacher). For each environment, 1000 training trajectories are provided alongside well-controlled in-distribution and out-of-distribution test splits. The dataset includes RGB videos and metadata (such as action sequences, trajectory lengths, random seeds, etc.) to facilitate research on physical interactions.
创建时间:
2026-05-08
原始信息汇总
ACWM-Phys 数据集概述
基本信息
ACWM-Phys 是一个用于评估动作条件视频世界模型在多样化物理动力学下表现的基准数据集,由佐治亚理工学院的研究团队创建。
数据集规模与构成
数据集涵盖 8个环境,分布在 4个物理领域:
| 物理类别 | 环境名称 |
|---|---|
| 刚体 | 推方块、堆叠方块 |
| 可变形体 | 推绳子、移动布料 |
| 粒子系统 | 推沙子、倒水 |
| 运动学 | 机械臂、Reacher |
每个环境提供 1,000条训练轨迹,并包含受控的分布内和分布外测试集。
数据格式
- 视频文件:RGB视频,10fps,分辨率240×240(推沙子环境为240×400),以MP4格式存储
- 元数据文件:
metadata.pt(使用torch.load加载),包含以下字段:video_path:视频文件名actions:每步动作序列,形状为[T, action_dim]length:帧数Tseed:模拟使用的随机种子episode_idx:全局片段索引(部分环境)
目录结构
data/ ├── rigid_dynamics/ │ ├── push_block/ {ind_train, ind_test, ood_test}/ │ └── stack_cube/ ├── deformable/ │ ├── push_rope/ │ └── clothmove/ ├── particle/ │ ├── push_sand/ │ └── pour_water/ └── kinematics/ ├── robot_arm_64/ └── reacher/
下载方式
数据集和预训练检查点均可从HuggingFace下载:
- 数据集:
huggingface-cli download t1an/ACWM-Phys --repo-type dataset --local-dir ./data - 检查点:
huggingface-cli download t1an/ACWM-Phys-checkpoints --local-dir ./checkpoints
评估指标
| 指标 | 描述 |
|---|---|
| MSE | 像素值均方误差(范围[0,1]) |
| M-MSE | 运动加权MSE(重点关注运动区域) |
| PSNR | 峰值信噪比(dB) |
| SSIM | 结构相似性指数 |
模型架构
ACWM-DiT模型框架:
- 因果VAE(Wan 2.1):将视频编码为16通道潜变量,空间压缩H/8×W/8,时间压缩4倍
- DiT与流匹配:对完整潜变量轨迹进行去噪,支持AdaLN和交叉注意力动作条件
- 动作条件注入:默认使用AdaLN,高维动作推荐使用交叉注意力
模型规模包括:DiT-S(约200M参数)、DiT-M(约600M参数)、DiT-L(约800M参数)。
搜集汇总
数据集介绍

构建方式
ACWM-Phys数据集的构建根植于多样化的物理仿真环境,涵盖刚体、可变形体、粒子系统和运动学四大物理范畴,共计八个独立环境。每个环境均通过物理引擎生成一千条训练轨迹,并精心划分出分布内与分布外两种测试集,以全面评估模型在不同物理动态下的泛化能力。数据以每秒十帧的RGB视频形式存储,分辨率为240×240像素,配合记录每一步动作序列、帧数及随机种子等元信息的metadata.pt文件,形成结构完整、易于解析的数据单元。
特点
该数据集的核心特色在于其对物理交互多样性的系统覆盖,从刚体的推挤与堆叠到绳索与布料的可变形操作,从沙粒与水流的粒子行为到机械臂与关节的运动学控制,全面考验动作条件视频世界模型对复杂物理规律的理解。特别设计的分布内与分布外测试分叉,为评估模型在未知情境下的适应力提供了严谨基准。此外,数据集不仅包含标准化的训练与测试数据,还附带基于潜扩散变换器与流匹配训练的基线模型ACWM-DiT,支持多种模型尺寸与动作条件注入方式,为研究者提供了可直接对比的参考框架。
使用方法
使用ACWM-Phys数据集时,研究者首先通过HuggingFace CLI下载数据至本地,并设置环境变量指定数据根目录。训练阶段需调用Python脚本并传入对应环境的YAML配置文件,支持单卡或多卡并行训练,亦可借助SLURM集群进行分布式作业。评估环节通过eval.py脚本执行,可选择单一环境或批量评估所有环境,并自动生成包含峰值信噪比、结构相似性等指标的评估报告,同时可以输出真实与预测视频并排对比的可视化结果,便于直观分析模型性能。
背景与挑战
背景概述
ACWM-Phys数据集由佐治亚理工学院Haotian Xue等人于2026年创建,旨在系统评估动作条件视频世界模型在多样化物理动态下的泛化能力。该数据集涵盖刚体、可变形体、粒子及运动学四大物理体系,包含推方块、堆方块、推绳索、布料移动、推沙、倒水、机械臂及可达点共8个环境,每个环境提供1000条训练轨迹及精心设计的分布内与分布外测试集。作为首个全面覆盖多物理类型的基准,ACWM-Phys填补了现有视频世界模型在复杂物理交互中泛化性评估的空白,其配套的ACWM-DiT潜扩散变换器基线为相关研究提供了重要参照,对推动物理仿真与视频预测领域的发展具有里程碑意义。
当前挑战
ACWM-Phys所解决的领域核心挑战在于,现有视频世界模型通常针对单一物理类型设计,难以在刚体碰撞、可变形材料形变、流体粒子运动及机械臂多关节运动等跨域物理交互中保持预测一致性,尤其缺乏对分布外场景的泛化能力。数据集构建过程中面临多重挑战:需为8个环境分别设计高保真物理仿真器、统一动作维度与帧率(10fps)、处理不同分辨率(如240×400的推沙场景),并生成可控的分布内与分布外测试集以精准度量模型的泛化边界;此外,需为每个环境训练独立的DiT-S检查点(约2亿参数),确保模型在100k步内收敛至满意质量,同时对数据存储格式、VAE压缩(Wan 2.1)与流匹配训练流程进行跨环境适配,构成了工程与算法层面的双重复杂考验。
常用场景
经典使用场景
在智能体交互与物理世界建模领域,ACWM-Phys数据集为评估动作条件视频世界模型在多样化物理动力学下的泛化能力提供了标准化基准。该数据集精心设计了包含刚体、可变形体、粒子系统及运动学四大物理范畴的八个仿真环境,每个环境均提供千条训练轨迹及精心划分的分布内与分布外测试集。研究者可借助此数据集验证模型在推方块、堆立方、推绳索、布料移动、推沙、倒水、机械臂操作及抓取器运动等场景中的物理预测能力,尤其关注模型对未见过的物理参数及运动模式的适应程度。ACWM-Phys通过统一的数据格式与评估指标,为动作条件视频预测研究的可重复性奠定了坚实基础。
实际应用
在实际应用中,ACWM-Phys数据集所评测的动作条件视频世界模型对于具身智能与机器人操作具有直接推动作用。例如在机器人抓取与操控任务中,模型需准确预测推、拉、堆叠等动作对物体状态的影响;在无损检测场景中,对布料、绳索等柔性体形变的预测能力至关重要;颗粒物料处理与液体倾倒等工业流程同样需要可靠的物理预见性。此外,运动学环境中的机械臂路径规划与抓取器轨迹预测,直接服务于自动化生产线与精密操作任务。ACWM-Phys为这些真实世界应用提供了从仿真到泛化的性能预演场,加速了物理世界模型从实验室走向产业部署的进程。
衍生相关工作
伴随ACWM-Phys数据集发布的ACWM-DiT模型,是其在动作条件视频预测领域引发衍生研究的典型代表。该工作基于潜在扩散Transformer架构,结合因果变分自编码器与流匹配技术,为多物理环境下的视频预测提供了强有力的基线方法。ACWM-DiT支持自适应层归一化与交叉注意力两种动作条件注入方式,为大动作空间场景提供了灵活的建模选择。这一工作启发了后续研究者在物理视频预测中探索更高效的时序注意力机制、条件扩散策略以及跨环境迁移学习范式,推动了动作条件视频世界模型在泛化性、计算效率与生成质量三个维度上的协同发展。
以上内容由遇见数据集搜集并总结生成



