VisPhyBench-Data
收藏Hugging Face2026-02-09 更新2026-02-10 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/VisPhyBench-Data
下载链接
链接失效反馈官方服务:
资源简介:
VisPhyBench 是一个用于评估模型在外观重建和物理合理运动再现方面性能的数据集。它包含来自108个物理模板的209个场景,通过代码驱动的重模拟在2D和3D场景中评估物理理解能力。每个场景都标注了粗粒度的难度标签(简单/中等/困难)。数据集分为两个部分:'sub'(209个场景)用于评估和分析,'test'(49个场景)用于快速检查。每个样本包含一个合成物理场景的短视频、一个描述第一帧场景的检测JSON文件以及一个由八位标注者评定的难度标签。检测JSON文件详细描述了场景中的对象属性,包括位置、类别、颜色、边界框和尺寸等。数据集适用于物理理解和运动模拟相关的研究任务,采用MIT许可,语言为英语。
提供机构:
TIGER-Lab
创建时间:
2026-02-09
搜集汇总
数据集介绍

构建方式
在计算机视觉与物理推理交叉领域,VisPhyBench数据集的构建体现了对模型物理理解能力的系统性评估需求。该数据集从108个物理模板中衍生出209个场景,每个场景均包含合成物理过程的短视频、首帧场景描述的检测JSON文件以及基于八位标注者评分的难度标签。数据划分采用子集与测试集双重结构,其中子集包含209个样本用于全面评估,测试集则从中抽取49个样本以支持快速验证,确保了评估的广度与效率。
特点
VisPhyBench数据集的核心特点在于其统一的多维度评估协议,涵盖二维与三维场景下的代码驱动重模拟,综合了外观重建与物理合理运动再现的双重度量标准。每个场景均附带精细的检测JSON文件,详细描述了图像尺寸、坐标系规范及物体属性如类别、颜色、位置与边界框,为模型提供了精确的初始化信息。此外,数据集通过难度标签(简单/中等/困难)对场景进行分层,增强了评估的针对性与可解释性。
使用方法
该数据集主要用于评估模型在物理场景中的外观重建与运动模拟能力。研究者可通过加载提供的视频与检测JSON文件,利用代码驱动方法重现场景并生成可执行模拟代码,进而量化模型在物理合理性方面的表现。数据集的子集与测试集划分支持从全面分析到快速验证的不同研究阶段,其结构化标注便于集成至现有评估流程,推动视觉-物理交叉领域的算法进步。
背景与挑战
背景概述
在计算机视觉与物理推理交叉领域,对模型理解物理世界并生成逼真动态的需求日益增长。VisPhyBench数据集由Jiarong Liang等人于2026年创建,隶属于TIGER-AI实验室,旨在通过代码驱动的重模拟评估模型在二维与三维场景中重建外观与生成物理合理运动的能力。该数据集包含源自108个物理模板的209个场景,每个场景均标注了难度等级,为核心研究问题——即模型对物理规律的隐式学习与显式应用——提供了标准化评估框架,推动了具身智能与仿真技术的前沿发展。
当前挑战
VisPhyBench所针对的领域挑战在于如何精确量化模型对复杂物理交互的理解,例如物体碰撞、运动轨迹预测及材质属性推理,这些任务要求模型超越表观特征捕捉而深入本质规律。在构建过程中,挑战体现在场景设计的多样性与真实性平衡,需确保物理模板既能覆盖广泛现象又避免过拟合;同时,难度标注依赖于多人评分均值,引入了主观一致性难题,且数据结构的复杂性对检测JSON的标准化与可扩展性提出了较高要求。
常用场景
经典使用场景
在计算机视觉与物理推理交叉领域,VisPhyBench数据集为评估模型在合成物理场景中的表现提供了标准化基准。该数据集通过包含209个源自108个物理模板的场景,并辅以难度标注,使得研究者能够系统性地测试模型在二维与三维环境中重建物体外观及生成物理合理运动的能力。经典使用场景涉及利用代码驱动的重模拟方法,量化模型对物理规律的掌握程度,从而推动视觉物理理解研究的深入发展。
实际应用
在实际应用层面,VisPhyBench数据集为机器人感知、自动驾驶仿真及虚拟现实内容生成等场景提供了关键测试工具。通过要求模型从视觉输入中生成可执行的模拟代码,该数据集能够验证智能系统在动态环境中预测物体行为、规划安全路径以及交互式场景编辑的可靠性。这种基于物理约束的评估机制,有助于提升实际系统中决策算法的鲁棒性与真实性,促进技术从实验室向产业界的转化。
衍生相关工作
围绕VisPhyBench数据集,学术界已衍生出多项经典研究工作。这些工作主要集中在改进神经符号推理架构、增强生成模型对物理规律的隐式编码能力,以及开发跨模态的物理场景理解框架。例如,部分研究利用该数据集的标注信息训练端到端的物理模拟器,另一些则探索结合大型语言模型与视觉Transformer的混合方法,以提升代码生成与运动预测的准确性,进一步拓展了视觉物理推理的研究边界。
以上内容由遇见数据集搜集并总结生成



