PhysInOne

github2026-04-16 更新2026-04-14 收录

下载链接：

https://github.com/vLAR-group/PhysInOne

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出了**PhysInOne**，这是最大的数据集，解决了AI系统缺乏物理基础训练数据的关键问题。该数据集包含**200万个视频**，来自**153,810个动态3D场景**，覆盖**71种日常环境中的基本物理现象**，涵盖四大领域：**力学、光学、流体动力学、磁学**。包括**2,231种常见物体**，专为日常物理互动设计，并丰富了**623种材料**，分为五类：塑料、金属、木材、石材和织物。特征包括**528种多样的3D背景**，以确保真实性和环境多样性。每个场景涉及**1-3种物理现象**，反映现实世界活动，支持**复杂多物体互动**，平均每个场景的物体数量为**3.9（单物理）、6.3（双物理）、7.8（三物理）**。每个场景从**13个视角**捕捉：12个静态摄像头和1个移动摄像头。数据集还包含丰富的注释：3D几何、语义标签、物体运动和动力学、物理属性、自然语言场景描述等。

We propose **PhysInOne**, the largest dataset dedicated to addressing the critical gap that AI systems lack physically grounded training data. This dataset contains **2 million videos** sourced from **153,810 dynamic 3D scenes**, covering **71 fundamental physical phenomena** across four core domains: mechanics, optics, fluid dynamics, and magnetism. It also includes **2,231 common objects tailored for daily physical interactions**, and incorporates **623 material types** categorized into five classes: plastic, metal, wood, stone, and fabric. Additionally, the dataset provides **528 unique 3D backgrounds** to ensure realism and environmental diversity. Each scenario involves **1–3 physical phenomena**, reflecting real-world activities, and supports complex multi-object interactions. As scene complexity rises, the average number of objects per scenario is 3.9 (single-physics), 6.3 (dual-physics), and 7.8 (tri-physics). Each scenario is captured from **13 perspectives**: 12 static cameras and 1 moving camera. The dataset also offers comprehensive annotations including 3D geometry, semantic labels, object motion and dynamics, physical properties, and natural language scene descriptions. Supported applications include physics-aware video generation, short-term and long-term future frame prediction, physical property estimation, motion transfer, and more.

创建时间：

2026-04-12

原始信息汇总

PhysInOne 数据集概述

数据集简介

PhysInOne 是一个旨在解决人工智能系统缺乏物理基础训练数据的关键性稀缺问题的大规模数据集。

规模与多样性

视频数量：包含 200 万个视频。
场景来源：由 153,810 个动态 3D 场景生成。
物理现象覆盖：涵盖 71 种日常环境中的基础物理现象，涉及四大主要领域：力学、光学、流体动力学、磁学。
物体数量：包含 2,231 个为日常物理交互定制的常见物体。
材料种类：丰富了 623 种材料，涵盖塑料、金属、木材、石材和织物五大类别。
背景环境：包含 528 个多样化的 3D 背景，以确保真实性和环境多样性。

场景特征

现象组合：每个场景涉及 1 至 3 种物理现象，以反映现实世界活动。
交互复杂性：支持复杂的多物体交互，场景复杂度递增。
物体数量：平均每个场景的物体数量为：单物理现象场景 3.9 个，双物理现象场景 6.3 个，三物理现象场景 7.8 个。
视角：每个场景从 13 个视角捕捉：12 个静态摄像头和 1 个移动摄像头。

标注信息

数据集提供丰富的标注，包括：

3D 几何信息
语义标签
物体运动与动力学信息
物理属性
自然语言场景描述

支持的应用

物理感知视频生成
短期与长期未来帧预测
物理属性估计
运动迁移
以及其他应用

引用

如果使用本数据集，请引用： bibtex @misc{zhou2026physinonevisualphysicslearning, title={PhysInOne: Visual Physics Learning and Reasoning in One Suite}, author={Siyuan Zhou and Hejun Wang and Hu Cheng and Jinxi Li and Dongsheng Wang and Junwei Jiang and Yixiao Jin and Jiayue Huang and Shiwei Mao and Shangjia Liu and Yafei Yang and Hongkang Song and Shenxing Wei and Zihui Zhang and Peng Huang and Shijie Liu and Zhengli Hao and Hao Li and Yitian Li and Wenqi Zhou and Zhihan Zhao and Zongqi He and Hongtao Wen and Shouwang Huang and Peng Yun and Bowen Cheng and Pok Kazaf Fu and Wai Kit Lai and Jiahao Chen and Kaiyuan Wang and Zhixuan Sun and Ziqi Li and Haochen Hu and Di Zhang and Chun Ho Yuen and Bing Wang and Zhihua Wang and Chuhang Zou and Bo Yang}, year={2026}, eprint={2604.09415}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.09415}, }

许可协议

本项目采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。协议链接：https://creativecommons.org/licenses/by-nc-sa/4.0/

搜集汇总

数据集介绍

构建方式

在计算机视觉与物理推理交叉领域，数据集的构建需兼顾规模与物理真实性。PhysInOne通过生成153,810个动态三维场景，覆盖力学、光学、流体动力学和磁学四大领域的71种基础物理现象，构建了包含200万视频的庞大数据集。每个场景模拟了日常环境中的物理交互，涉及1至3种物理现象，并包含3.9至7.8个物体以体现复杂性。数据采集采用13个视角，包括12个静态摄像头和1个运动摄像头，确保了多角度观察。此外，数据集整合了2,231种常见物体、623种材料属性及528种三维背景，辅以几何结构、语义标签、运动动力学等丰富注释，为物理感知研究提供了坚实基础。

特点

PhysInOne以其卓越的规模与多样性脱颖而出，成为当前物理基础训练数据中最全面的资源。数据集涵盖200万视频，源自超过15万个动态场景，深入模拟了日常环境中的71种物理现象，跨越力学、光学等多个学科领域。其场景设计注重真实世界的复杂性，支持多物体交互，且物体数量随物理现象叠加而递增，平均达到3.9至7.8个，增强了数据的实用性。丰富的注释体系包括三维几何、语义标签、物体运动与物理属性，配合自然语言场景描述，为模型提供了深层次的物理理解线索。多样的材料与背景进一步提升了数据的泛化能力，使其适用于视频生成、帧预测等多种高级任务。

使用方法

该数据集旨在推动物理感知人工智能系统的发展，用户可通过Hugging Face平台直接访问，便于集成到各类机器学习流程中。数据集支持多种应用场景，如物理感知视频生成、短期与长期未来帧预测、物理属性估计及运动迁移等。研究人员可利用其丰富的注释信息，训练模型理解复杂物理交互，或作为基准测试评估算法性能。数据以标准化格式提供，确保易于预处理与分析，同时项目页面与论文提供了详细的使用指南，帮助用户深入探索数据的内在结构。随着后续代码的发布，数据处理与评估工具将进一步完善，促进更高效的学术与工程实践。

背景与挑战

背景概述

在计算机视觉与人工智能领域，物理推理能力的构建一直是实现通用智能的关键瓶颈。为应对物理基础训练数据的严重匮乏，vLAR研究团队于2026年推出了PhysInOne数据集，该数据集作为CVPR会议的重要成果，旨在为AI系统提供大规模、多模态的物理学习与推理基准。其核心研究问题聚焦于如何通过涵盖力学、光学、流体动力学与磁学等71种基础物理现象的多样化动态场景，促进模型对现实世界物理规律的理解与泛化。该数据集通过整合超过两百万段视频、海量三维几何与语义标注，为物理感知的视频生成、长短期帧预测等任务奠定了坚实的数据基础，预期将显著推动具身智能与物理启发的机器学习研究进展。

当前挑战

PhysInOne数据集致力于解决视觉物理学习与推理这一复杂领域问题，其首要挑战在于如何设计能够全面覆盖多种物理交互的合成场景，以准确模拟真实世界中的复杂动力学过程。构建过程中，研究团队需克服大规模三维场景生成与物理仿真的计算负担，确保超过十五万动态场景的物理真实性与多样性。同时，标注工作面临巨大复杂性，需精确记录物体运动、材料属性及多物理现象耦合的丰富元数据。此外，数据集的规模与多样性要求高效的存储管理与多视角同步采集策略，这些技术难点共同构成了数据集构建的核心挑战。

常用场景

经典使用场景

在计算机视觉与物理推理交叉领域，PhysInOne数据集为模型训练提供了前所未有的物理基础数据资源。其经典使用场景集中于物理感知的视频生成与预测任务，通过涵盖力学、光学、流体动力学和磁学四大领域的71种物理现象，数据集支持模型学习复杂多物体交互的动态规律。研究者可利用其丰富的三维几何、语义标签及物体运动注释，构建能够模拟真实世界物理行为的生成式模型，从而在合成视频中准确反映材质特性、运动轨迹及能量传递等物理过程。

实际应用

在实际应用层面，PhysInOne数据集为机器人仿真、自动驾驶系统的环境感知以及增强现实交互提供了关键数据支撑。基于其生成的物理合规视频可用于训练机器人执行复杂操作任务，例如抓取易碎物品或避开动态障碍物。在自动驾驶领域，模型通过学习流体动力学与光学现象，能更准确地预测雨天路况或夜间灯光反射。此外，该数据集还能赋能教育科技领域，开发能够模拟物理实验的交互式学习工具，提升教学场景的真实感与沉浸体验。

衍生相关工作

围绕PhysInOne数据集，已衍生出多项聚焦于物理感知生成与推理的经典研究工作。这些工作主要扩展了神经网络在动态场景建模中的应用，例如开发能够同时处理多物理现象耦合的时空预测架构。部分研究利用其材质与运动注释，推进了物理属性估计与运动迁移技术的精度；另一些工作则结合其自然语言描述，探索视觉-语言联合模型对物理常识的推理能力。这些衍生成果共同推动了具身智能与场景理解领域的前沿进展，并为后续跨模态物理学习框架奠定了算法基础。

以上内容由遇见数据集搜集并总结生成