VisPhyWorld-Sub-Generated-Videos

Name: VisPhyWorld-Sub-Generated-Videos
Creator: TIGER-Lab
Published: 2026-04-22 09:11:15
License: 暂无描述

Hugging Face2026-04-22 更新2026-04-23 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/VisPhyWorld-Sub-Generated-Videos

下载链接

链接失效反馈

官方服务：

资源简介：

VisPhyWorld Sub Generated Videos数据集包含为VisPhyBench/VisPhyWorld的sub分割生成的视频，按渲染引擎和模型组织。该数据集旨在用于模型比较、错误分析以及代码驱动或直接视频生成结果的定性检查。数据集内容按渲染引擎（threejs、p5js、video）和模型组织，具体包括三种引擎下的多种模型生成的视频文件。数据集规模在1K到10K之间，适用于物理推理、代码生成和视频生成等任务的研究与评估。需要注意的是，该仓库仅存储生成的输出，源基准数据单独托管在TIGER-Lab/VisPhyBench-Data中。

The VisPhyWorld Sub Generated Videos dataset contains videos generated for the sub split of VisPhyBench/VisPhyWorld, organized by rendering engine and model. This dataset is intended for model comparison, error analysis, and qualitative inspection of code-driven or direct video generation results. The dataset content is organized by rendering engines (threejs, p5js, video) and models, including video files generated by various models under the three engines. The dataset size ranges from 1K to 10K, suitable for research and evaluation in tasks such as physical reasoning, code generation, and video generation. It should be noted that this repository only stores the generated outputs, and the source benchmark data is separately hosted in TIGER-Lab/VisPhyBench-Data.

提供机构：

TIGER-Lab

创建时间：

2026-04-22

原始信息汇总

VisPhyWorld Sub Generated Videos 数据集概述

基本信息

语言：英语
许可证：MIT
数据集规模：1,000 < 样本数 < 10,000
来源数据集：TIGER-Lab/VisPhyBench-Data

数据集描述

该数据集包含 VisPhyBench / VisPhyWorld 数据集的 sub 子集所生成的视频文件，按渲染引擎和模型组织，用于模型对比、错误分析以及对代码驱动或直接视频生成结果的定性检查。

数据组织方式

仓库结构如下：

threejs/<模型名称>/.mp4 p5js/<模型名称>/.mp4 video/<模型名称>/*.mp4 metadata.json

渲染引擎与对应模型

引擎	模型
threejs	`gpt-5`, `claude-sonnet-4-5`, `gemini-3-pro`, `gpt-4.1`, `qwen3-vl-plus`
p5js	`gpt-5`, `claude-sonnet-4-5`, `gemini-3-pro`, `gpt-4.1`, `qwen3-vl-plus`
video	`svd-img2vid`, `sora-2`, `veo31`

重要说明

本仓库仅存储生成的输出结果，源基准数据独立托管于 TIGER-Lab/VisPhyBench-Data。
上传内容作为 VisPhyWorld 数据集的配套资产，用于定性评估。
在本地准备阶段，已对齐各引擎/模型的文件名，确保所有文件与基准样本名称一一对应（若可用）。

引用

若使用本数据集，请引用 VisPhyWorld / VisPhyBench 项目，引用信息见原始 README 中的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在物理推理与视频生成交叉领域，VisPhyWorld-Sub-Generated-Videos数据集作为VisPhyBench/VisPhyWorld项目的衍生资源，其构建过程体现了系统化的生成与组织逻辑。该数据集源自基准集合TIGER-Lab/VisPhyBench-Data，通过对其中‘sub’分割样本进行多模型、多引擎的视频生成而创建。生成过程涵盖了三种不同的渲染引擎：threejs、p5js以及直接视频生成引擎，并分别集成了包括GPT-5、Claude Sonnet 4.5、Gemini 3 Pro、GPT-4.1、Qwen3-VL-Plus在内的代码生成模型，以及SVD-Img2Vid、Sora-2、Veo31等直接视频生成模型。在数据整理阶段，所有生成视频的文件名均经过统一对齐，确保与原始基准样本形成一一对应关系，从而为后续的模型对比与误差分析奠定了严谨的数据基础。

特点

该数据集的核心特征在于其作为生成结果的集合，专门服务于模型性能的定性评估与比较研究。数据集内容并非原始物理场景描述，而是多种先进模型根据相同物理推理任务生成的视频输出，这为横向对比不同模型在代码驱动或端到端视频生成任务上的能力提供了直观素材。其组织结构清晰，严格按渲染引擎和模型名称进行目录划分，使得研究者能够便捷地定位和检视特定技术路径下的生成效果。此外，数据集与源基准数据的分离设计，既保持了基准数据的纯净性，又突出了生成结果的可比性与分析价值，尤其适用于深入探究模型在物理规律理解与视觉化呈现方面的差异与局限。

使用方法

该数据集主要应用于模型比较、错误分析和生成结果的定性检查。研究者可通过遍历不同引擎（如threejs、p5js、video）和对应模型（如GPT-5、Sora-2等）目录下的MP4视频文件，直观对比同一物理场景下不同生成方法的视觉保真度与物理合理性。配套的metadata文件可能提供了额外的组织信息。使用时应结合源基准数据集TIGER-Lab/VisPhyBench-Data，以获取原始的问题描述与参考信息，从而进行更全面的分析。该数据集作为VisPhyWorld项目的配套资源，其核心价值在于支持对代码生成与视频合成模型物理推理能力的深入评估，相关研究成果需引用项目对应的学术文献。

背景与挑战

背景概述

在人工智能与计算机视觉交叉领域，物理推理能力是衡量模型智能水平的关键维度。VisPhyWorld-Sub-Generated-Videos数据集由TIGER-Lab于2026年创建，作为VisPhyBench/VisPhyWorld项目的重要组成部分，旨在通过代码驱动或直接视频生成的方式，系统评估模型在复杂物理场景中的理解与重建能力。该数据集聚焦于探索模型如何从物理描述中生成符合现实规律的动态视觉内容，其核心研究问题在于推动物理常识推理从静态识别向动态生成演进，为多模态人工智能的发展提供了重要的基准测试平台。

当前挑战

该数据集致力于解决物理常识推理在视频生成领域的核心挑战，即如何确保生成的动态序列不仅视觉逼真，而且严格遵循基础物理定律，如物体运动轨迹、碰撞效应与能量守恒等。在构建过程中，研究者面临多重技术难题，包括跨渲染引擎（如threejs、p5js）与生成模型（如GPT-5、Sora-2）的输出对齐、生成视频与基准样本的一一对应验证，以及在不同物理场景下保持生成内容在时空维度上的逻辑一致性。这些挑战对数据集的标准化与可复现性提出了较高要求。

常用场景

经典使用场景

在计算视觉与物理推理交叉领域，VisPhyWorld-Sub-Generated-Videos数据集为评估多模态模型的物理场景生成能力提供了标准化基准。该数据集通过整合threejs、p5js及直接视频生成引擎的输出，支持研究者对模型在代码驱动或端到端视频生成任务中的表现进行系统比较。其典型应用场景包括模型输出的定性检查、跨引擎渲染效果分析以及生成错误的可视化诊断，为物理常识推理的评估提供了直观的视觉依据。

实际应用

在工业与科研实践中，该数据集可作为智能体仿真训练、教育内容自动生成以及物理引擎验证的参考标准。例如，在机器人模拟环境中，生成视频能够用于预演物理交互结果，优化决策算法；在科学教育领域，它支持创建动态可视化教材，帮助学生理解抽象物理原理。此外，数据集为视频生成模型在游戏开发、虚拟现实等需要物理真实感的场景提供了关键的评测工具，促进了生成技术在实际应用中的可靠部署。

衍生相关工作

围绕该数据集衍生的研究已拓展至多个方向，包括基于物理约束的生成模型微调、跨模态推理框架的设计以及生成质量的自动化评估指标开发。例如，部分工作利用数据集中的错误样本，训练鉴别器以提升生成内容的物理一致性；其他研究则结合代码生成与视频合成，探索符号推理与神经渲染的融合路径。这些进展共同推动了物理常识建模从理论描述向可计算、可评测的系统化方向发展，丰富了多模态人工智能的研究图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集