VisPhyWorld-Sub-All
收藏Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/VisPhyWorld-Sub-All
下载链接
链接失效反馈官方服务:
资源简介:
VisPhyWorld Sub All 数据集融合了来自 VisPhyBench/VisPhyWorld 的 `sub` 分割地面实况视频与 `TIGER-Lab/VisPhyWorld-Sub-Generated-Videos` 中相应的生成视频。该数据集旨在用于样本级检查、模型比较、定性评估以及受益于在一个存储库中同时拥有地面实况和生成视频的下游工具。数据集内容包括 GT/*.mp4、threejs/<model>/*.mp4、p5js/<model>/*.mp4、video/<model>/*.mp4、detection_json/*.json、metadata.jsonl、difficulty_table.json 和 metadata.json。其中,`GT/` 包含原始 `data/sub/videos` 文件的副本,生成视频文件夹保留了配套生成视频数据集使用的引擎/模型层次结构。元数据文件 `metadata.jsonl` 包含 `sub` 分割中每个基准样本的一行记录,`video_path` 指向 `GT/` 下的相应地面实况文件,`detection_json_path` 在可用时指向 `detection_json/` 中的注释文件,`metadata.json` 提供数据集级计数、布局信息和源引用。文件名在地面实况和生成视频之间对齐,3D 生成文件使用重新映射的基准名称。该数据集适用于视频、物理、基准测试、物理推理、代码生成、threejs、p5js 和地面实况等应用场景。
The VisPhyWorld Sub All dataset combines ground truth videos from the `sub` split of VisPhyBench/VisPhyWorld with corresponding generated videos from TIGER-Lab/VisPhyWorld-Sub-Generated-Videos. This dataset is designed for sample-level inspection, model comparison, qualitative evaluation, and downstream tools that benefit from having both ground truth and generated videos in a single repository. The dataset contents include GT/*.mp4, threejs/<model>/*.mp4, p5js/<model>/*.mp4, video/<model>/*.mp4, detection_json/*.json, metadata.jsonl, difficulty_table.json, and metadata.json. The `GT/` directory contains copies of the original `data/sub/videos` files, while the generated video folders maintain the engine/model hierarchy used in the accompanying generated video dataset. The metadata file `metadata.jsonl` contains one record per benchmark sample in the `sub` split, with `video_path` pointing to the corresponding ground truth file under `GT/`, and `detection_json_path` pointing to annotation files in `detection_json/` when available. The `metadata.json` provides dataset-level counts, layout information, and source references. Filenames are aligned between ground truth and generated videos, with 3D generated files using remapped benchmark names. This dataset is suitable for applications in video, physics, benchmarking, physical reasoning, code generation, threejs, p5js, and ground truth scenarios.
提供机构:
TIGER-Lab
创建时间:
2026-04-29
原始信息汇总
VisPhyWorld Sub All 数据集概述
基本信息
- 语言:英语
- 许可证:MIT
- 数据集规模:1,000 < 样本数 < 10,000
- 来源数据集:
- TIGER-Lab/VisPhyBench-Data
- TIGER-Lab/VisPhyWorld-Sub-Generated-Videos
数据集目的
该数据集融合了 VisPhyBench / VisPhyWorld 的 sub 分片中的真实视频(ground-truth)与对应的生成视频,旨在支持样本级检查、模型对比、定性评估以及需要同时使用真实视频和生成视频的下游工具开发。
内容结构
数据集以如下目录结构组织:
GT/*.mp4:真实视频文件,文件名与原始基准数据集一致。threejs/<model>/*.mp4:使用 Three.js 引擎生成的视频,按模型分层。p5js/<model>/*.mp4:使用 p5.js 引擎生成的视频,按模型分层。video/<model>/*.mp4:其他引擎或模型生成的视频。detection_json/*.json:检测标注文件。metadata.jsonl:每个样本的元数据记录。difficulty_table.json:难度表。metadata.json:数据集级别的统计信息、布局说明和来源引用。
元数据
- metadata.jsonl:每行对应
sub分片中的一个基准样本,包含以下关键字段:video_path:指向GT/目录下对应的真实视频文件。detection_json_path:若存在标注文件,指向detection_json/目录。
- metadata.json:提供数据集级别的样本计数、布局信息和来源引用。
注意事项
- 真实视频与生成视频的文件名是对齐的(仅当生成视频可用时)。
- 3D 生成视频的文件名使用重映射后的基准名称,例如
task00001_3D_000.mp4。 - 本数据集为融合后的便捷浏览和对比数据集,原始基准数据集仍单独托管在
TIGER-Lab/VisPhyBench-Data。
引用信息
若使用本数据集,请引用以下文献: bibtex @misc{visphyworld2026, title = {VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction}, author = {Liang, Jiarong and Ku, Max and Hui, Ka-Hei and Nie, Ping and Chen, Wenhu}, year = {2026}, eprint = {2602.13294}, archivePrefix = {arXiv}, primaryClass = {cs.CV} }
搜集汇总
数据集介绍
构建方式
VisPhyWorld-Sub-All数据集通过融合VisPhyBench/VisPhyWorld项目中'子集'分区的真实视频与TIGER-Lab/VisPhyWorld-Sub-Generated-Videos对应的生成视频而构建。数据集目录结构清晰,包含GT/目录存放原始基准视频副本,threejs/、p5js/和video/子目录按引擎和模型层级组织生成视频,detection_json/目录存储检测标注文件,metadata.jsonl文件以每样本一行的形式记录元数据,实现了真实与生成视频在文件名级别上的对齐。
特点
该数据集作为融合型便利资源,其核心特点在于将同一基准样本的真实视频与多个模型生成的视频统一存储于一个仓库中,极大便利了样本级细粒度检查、模型间对比以及定性评估。元数据文件metadata.json提供了数据集级别统计和布局信息,difficulty_table.json记录了难度分布,配合对齐的文件名和引擎/模型层级目录结构,特别适合下游工具开发和可视化分析。
使用方法
研究人员可直接从GT/目录加载真实视频,从threejs/或p5js/对应模型子目录中获取生成视频,通过文件名进行逐样本比较。metadata.jsonl中的video_path和detection_json_path字段提供了文件路径快速索引,可用于批量评估或可视化工具开发。需要注意的是,3D生成文件使用了重映射后的基准名称(如task00001_3D_000.mp4),而原始基准数据集仍独立托管于TIGER-Lab/VisPhyBench-Data。
背景与挑战
背景概述
VisPhyWorld-Sub-All数据集由TIGER-AI-Lab团队于2026年创建,核心研究人员包括Liang Jiarong、Max Ku、Ka-Hei Hui、Ping Nie和Wenhu Chen。该数据集聚焦于物理推理与视频生成的交叉领域,旨在通过代码驱动的视频重建任务,系统性地评估模型对物理世界规律的理解能力。作为VisPhyBench基准测试的重要子集,它将真实标注视频与多引擎(ThreeJS、p5js)生成的视频融合于同一仓库,为样本级审查、模型对比和定性评估提供了统一平台。该数据集填补了现有视频基准在物理一致性量化评价方面的空白,对推动可解释AI和物理仿真驱动的视觉理解研究具有显著影响力。
当前挑战
该数据集面临的核心挑战包括:其一,物理推理领域长期缺乏可自动生成且具有精确物理标注的大规模视频基准,传统方法依赖人工标注,成本高昂且主观性强;VisPhyWorld通过代码生成技术模拟物理过程,但仍需解决生成视频与真实物理规律之间的细粒度一致性验证难题。其二,在构建过程中,多引擎(ThreeJS/p5js)生成的视频与真实视频之间需保证文件名称对齐和语义匹配,然而不同引擎的渲染差异和物理参数设置不一致可能导致视觉特征偏离真实场景,增加了数据融合的难度。此外,数据集规模较小(1K-10K),如何在此有限样本上设计具有统计显著性的评估指标,也是方法有效性验证的关键挑战。
常用场景
经典使用场景
VisPhyWorld-Sub-All数据集在物理推理与视频理解的前沿交叉领域中,扮演着不可或缺的基准测试角色。其最经典的使用场景在于对多模态大模型进行物理世界感知能力的量化评估,研究者可通过该数据集中的真实物理视频与多种生成引擎(如Three.js和p5.js)输出的合成视频进行对照分析,从而系统性地检验模型在物体运动轨迹、碰撞响应、重力影响等复杂物理现象上的推理精度。该数据集将原始地面实况数据与生成视频统一构建为融合资源库,为细粒度的样本级比对与模型鲁棒性测试提供了标准化的实验平台。
实际应用
在实际应用层面上,VisPhyWorld-Sub-All数据集为机器人自主导航、增强现实交互和自动化物理仿真验证等关键领域注入了新的活力。例如,在工业质检场景中,该数据集可用于训练智能系统实时检测物体坠落、倾倒等异常物理事件;在游戏引擎与影视特效制作中,它可作为参考标准校验生成动画的物理真实性。此外,该数据集还能辅助开发更为智能的视频监控系统,使其能够理解复杂的因果物理过程,从而在自动驾驶、人机协作等高风险环境中做出更为安全可靠的行为决策。
衍生相关工作
围绕VisPhyWorld-Sub-All数据集,学术界已衍生出一系列富有影响力的经典工作。其中最具代表性的是VisPhyBench基准框架本身,它通过代码驱动的视频重建范式创新性地将物理推理问题转化为可验证的生成任务。后续研究基于该数据集探索了神经渲染模型与物理先验知识的深度融合,催生了如Physics-Aware Video Generation和Causal Reasoning in Dynamic Scenes等方向。这些衍生工作不仅验证了该数据集作为评估平台的可靠性,更开启了物理感知视觉语言模型发展的新篇章,为构建真正理解物理世界运行法则的通用人工智能奠定了坚实的数据基础。
以上内容由遇见数据集搜集并总结生成



