PhysInOne

Name: PhysInOne
Creator: 香港理工大学; Syai新加坡; Meta
Published: 2026-04-10 23:27:27
License: 暂无描述

arXiv2026-04-10 更新2026-04-14 收录

下载链接：

https://vlar-group.github.io/PhysInOne.html

下载链接

链接失效反馈

官方服务：

资源简介：

PhysInOne是由香港理工大学vLAR团队构建的大规模物理学习数据集，涵盖力学、流体动力学等4大领域的71种物理现象。该数据集包含15.38万个动态3D场景和200万段标注视频，每个场景均配置多物体交互与复杂背景，数据来源通过UE引擎模拟生成并辅以SPH/MPM物理引擎验证。其构建过程严格遵循大学物理教材规范，通过组合单/多物理现象、多样化材质与背景配置实现场景泛化。该数据集主要服务于物理感知视频生成、未来帧预测等AI系统训练，旨在解决现有模型违反物理规律的核心问题。

PhysInOne is a large-scale physics learning dataset developed by the vLAR team at The Hong Kong Polytechnic University. It encompasses 71 physical phenomena across four major domains including mechanics and fluid dynamics. The dataset comprises 153,800 dynamic 3D scenes and 2 million annotated videos, with each scene featuring multi-object interactions and complex backgrounds. All data is generated using the UE engine and verified with SPH/MPM physics engines. Its construction strictly follows the specifications of university-level physics textbooks, and achieves scene generalization by combining single- and multi-physical phenomena, as well as diverse material and background configurations. This dataset is primarily targeted at training AI systems such as physics-aware video generation and future frame prediction models, with the core goal of addressing the issue of existing models violating physical laws.

提供机构：

香港理工大学; Syai新加坡; Meta

创建时间：

2026-04-10

原始信息汇总

PhysInOne 数据集概述

数据集简介

PhysInOne 是一个旨在解决AI系统缺乏物理基础训练数据的关键性稀缺问题的大规模数据集。

规模与多样性

视频与场景规模：包含从 153,810 个动态3D场景 生成的 200 万个视频。
物理现象覆盖：涵盖日常环境中的 71 种基本物理现象，横跨四大领域：力学、光学、流体动力学、磁学。
物体与材料：
- 包含 2,231 个 针对日常物理交互定制的常见物体。
- 使用 623 种材料 进行丰富，涵盖五类：塑料、金属、木材、石材、织物。
环境背景：包含 528 个多样化的3D背景，以确保真实感和环境多样性。

场景特征

物理现象组合：每个场景涉及 1-3 种物理现象，反映现实世界活动，包括单物理、双物理和三物理活动。
复杂物体交互：支持复杂的多物体交互，场景复杂度递增：
- 单物理场景平均物体数：3.9 个。
- 双物理场景平均物体数：6.3 个。
- 三物理场景平均物体数：7.8 个。
视角捕捉：每个场景从 13 个视角 捕捉，包括 12 个静态摄像头 和 1 个移动摄像头。

丰富标注

3D几何信息
语义标签
物体运动与动力学数据
物理属性
自然语言场景描述

支持的应用

物理感知视频生成
短期与长期未来帧预测
物理属性估计
运动迁移

数据集示例（部分）

力学：包含双物理活动示例，展示了弹射、重力、碰撞与结构力传递。
流体动力学：包含三物理活动示例，展示了重力驱动下的多层水流与动态平衡。
磁学：包含三物理活动示例，展示了磁铁排斥与气球浮力。
光学：包含三物理活动示例，展示了激光路径与物体遮挡。

基准测试结果摘要

数据集在四个物理相关任务上进行了定量评估。

物理感知视频生成

评估了使用与未使用PhysInOne微调的视频生成模型。部分最佳结果：

SVDsft 模型在PMF（3.147）和FVD（143）指标上表现最佳。
CogVideoX 模型在PMF（2.877）和人类评分（2.98）上表现最佳。
Wan2.2-5Bsft 模型在PMF（2.978）和人类评分（5.95）上表现最佳。

未来帧预测

长期预测（已知/新视角）

模型从视频前半部分预测约78帧未来帧（约提前2.6秒）。部分最佳结果：

MAGI-1 模型在已知视角的PMF（4.086）和PSNR（23.14）指标上表现最佳。
DefGS 模型在已知视角的SSIM（0.833）和LPIPS（0.192）指标上表现最佳。
FreeGave 模型在新视角的SSIM（0.619）指标上表现最佳。
DefGS 模型在新视角的LPIPS（0.348）指标上表现最佳。

短期预测（已知/新视角）

模型从流式输入中实时连续预测接下来10帧。部分最佳结果：

FreeGave 模型在已知视角的PMF（4.742）和PSNR（27.09）指标上表现最佳。
MAGI-1 模型在已知视角的SSIM（0.886）和LPIPS（0.116）指标上表现最佳。
DefGS 模型在新视角的PSNR（20.92）、SSIM（0.739）和LPIPS（0.322）指标上表现最佳。

物理属性估计

使用估计属性重新模拟

比较使用估计物理属性重新模拟的视频。GIC 模型在PMF（5.938）、PSNR（26.90）、SSIM（0.950）和LPIPS（0.074）所有指标上均优于PAC-NeRF模型。

按材料类型的属性估计误差

展示了不同材料物理参数估计的百分比误差（%），数值越低越好。

弹性固体：GIC在log₁₀(E)（49.76）和v（3.32）上误差更低；PAC-NeRF在ν（14.26）上误差更低。
塑性材料：PAC-NeRF在log₁₀(E)（68.38）、ν（15.79）和v（3.25）上误差更低；GIC在log₁₀(τY)（17.11）上误差更低。
牛顿流体：GIC在log₁₀(μ)（8.78）和log₁₀(κ)（70.07）上误差更低；PAC-NeRF在v（3.11）上误差更低。
颗粒物质：PAC-NeRF在θfric（16.87）和v（3.29）上误差更低。
非牛顿流体：GIC在log₁₀(μ)（124.26）、log₁₀(κ)（181.87）、log₁₀(τY)（28.78）和log₁₀(η)（24.97）上误差更低；PAC-NeRF在v（2.95）上误差更低。

运动迁移

评估将物理运动动态从源视频迁移到目标图像。MotionPro 模型在PMF（3.484）、PSNR（20.28）和SSIM（0.775）指标上优于GoWithTheFlow模型；GoWithTheFlow在LPIPS（0.410）上表现更佳。

作者与引用

主要作者：Siyuan Zhou, Hejun Wang, Hu Cheng, Jinxi Li, Dongsheng Wang 等（详见页面列表）。
通讯作者：Bo Yang (bo.yang@polyu.edu.hk)。
BibTeX引用：

@misc{zhou2026physinonevisualphysicslearning, title={PhysInOne: Visual Physics Learning and Reasoning in One Suite}, author={Siyuan Zhou and Hejun Wang and Hu Cheng and Jinxi Li and Dongsheng Wang and Junwei Jiang and Yixiao Jin and Jiayue Huang and Shiwei Mao and Shangjia Liu and Yafei Yang and Hongkang Song and Shenxing Wei and Zihui Zhang and Peng Huang and Shijie Liu and Zhengli Hao and Hao Li and Yitian Li and Wenqi Zhou and Zhihan Zhao and Zongqi He and Hongtao Wen and Shouwang Huang and Peng Yun and Bowen Cheng and Pok Kazaf Fu and Wai Kit Lai and Jiahao Chen and Kaiyuan Wang and Zhixuan Sun and Ziqi Li and Haochen Hu and Di Zhang and Chun Ho Yuen and Bing Wang and Zhihua Wang and Chuhang Zou and Bo Yang}, year={2026}, eprint={2604.09415}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.09415}, }

搜集汇总

数据集介绍

构建方式

在视觉物理学习领域，数据稀缺长期制约着模型对复杂物理规律的理解能力。PhysInOne数据集通过系统化的合成流程，构建了涵盖力学、光学、流体动力学和磁学四大领域的71种基础物理现象。其构建始于对2231个常见三维物体的收集，这些物体涵盖固体、可交互、可破坏、可变形及液体等多种类型，并配以528种复杂背景与623种材质。基于物理定律的严格约束，研究团队通过组合单物理、双物理及三物理活动，生成了3284种概念性物理活动，并进一步实例化为153,810个独特的三维动态场景。每个场景均采用Chaos Physics、MPM与SPH等多引擎进行高保真物理仿真，确保运动轨迹符合牛顿定律、动量守恒等基本物理原理。

特点

作为当前规模最大的视觉物理数据集，PhysInOne的核心特征体现在其前所未有的规模与系统性。数据集包含200万段标注视频，覆盖153,810个动态三维场景，在物理现象数量、场景复杂度和数据规模上均超越现有同类数据集数个数量级。其独特之处在于实现了多物体在复杂背景下的交互，并支持多种物理现象同时或顺序发生，如物体在重力作用下滚动时同时受到风力与摩擦力的影响。数据集提供了全景式标注体系，包括三维几何、语义分割、运动轨迹、物理属性及文本描述五类真值信息，形成了对物理场景的完整刻画。这种多层次、多模态的标注结构为模型学习可解释的物理规律提供了坚实基础。

使用方法

PhysInOne数据集为视觉物理学习与推理研究提供了多维度的基准测试平台。在物理感知视频生成任务中，研究者可利用其文本-视频对微调扩散模型，显著提升生成视频的物理合理性，并通过新提出的物理运动保真度指标进行量化评估。在长短时未来帧预测任务中，数据集提供的多视角与单目视频支持模型从已知或新颖视角预测复杂物理动态，适用于机器人规划与具身智能等应用。物理属性估计任务则允许模型从视觉观测中反演杨氏模量、粘度等本征参数，推动可编辑物理场景建模的发展。此外，运动迁移任务可测试模型在保持目标外观的同时传递复杂物理运动模式的能力。数据集的标准化划分确保了训练、验证与测试集之间的资产隔离，有效防止数据泄露，保障评估的严谨性。

背景与挑战

背景概述

PhysInOne数据集由香港理工大学vLAR研究组于2026年提出，旨在应对人工智能系统在物理基础训练数据方面的严重匮乏。该数据集系统性地构建了涵盖力学、光学、流体动力学和磁学四大日常物理领域的71种基本物理现象，包含15.38万个动态三维场景和200万段标注视频，规模远超以往同类数据集。其核心研究问题聚焦于通过大规模合成数据推动视觉物理学习与推理，为构建物理基础的世界模型提供关键训练资源，对生成式人工智能、具身智能和物理仿真等领域具有深远影响。

当前挑战

PhysInOne所解决的核心领域挑战在于提升模型对复杂多物体物理交互的动态建模能力，特别是在视频生成、未来帧预测等任务中确保运动的物理合理性。数据构建过程中面临多重挑战：首先，需在三维仿真环境中精确模拟71种物理现象及其组合，确保动力学严格遵循牛顿定律、动量守恒等基本物理规律；其次，需整合大量异构三维资产（包括可变形物体、流体等），并在复杂背景中实现多物体交互的真实渲染；此外，生成海量视频并配套几何、语义、运动、物性及文本描述的全方位标注，亦对数据流水线的可靠性与一致性提出了极高要求。

常用场景

经典使用场景

在视觉物理学习领域，PhysInOne数据集为物理感知视频生成提供了关键支撑。该数据集通过涵盖力学、光学、流体动力学和磁学四大领域的71种基础物理现象，构建了153,810个动态三维场景与200万段标注视频，为模型提供了丰富的物理规律学习素材。其多物体交互与复杂背景的设计，使得生成模型能够学习到真实世界中的物理约束，显著提升生成视频的物理合理性。

实际应用

该数据集在自动驾驶、机器人规划与影视特效等实际场景中展现出重要价值。其提供的长短期未来帧预测能力，可应用于实时环境感知与决策系统；运动传递技术则为动画制作与虚拟原型设计提供了物理可信的运动合成方案。这些应用显著提升了智能系统在动态环境中的适应性与生成内容的真实性。

衍生相关工作

基于PhysInOne数据集，研究者们在多个方向展开了深入探索。在视频生成领域，SVD、CogVideoX与Wan等模型通过微调显著提升了物理合理性；未来预测任务中，TiNeuVox、DefGS等方法在长短期帧预测上取得了进展；物理属性估计方面，PAC-NeRF与GIC等工作推动了材料参数的反演与重仿真技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集