PisaBench

github2025-03-13 更新2025-03-14 收录

下载链接：

https://github.com/vision-x-nyu/pisa-experiments

下载链接

链接失效反馈

官方服务：

资源简介：

我们的PISA（物理信息模拟和对齐）评估框架包括一个新的视频数据集，其中物体在各种现实世界（左）和合成（右）场景中掉落。为了可视化目的，我们在每个图像中叠加了多个视频帧来描绘物体运动。我们的现实世界视频使我们能够评估生成视频输出的物理准确性，而我们的合成视频使我们能够通过使用后训练对齐方法来提高准确性。

Our PISA (Physical-Informed Simulation and Alignment) evaluation framework includes a novel video dataset depicting objects falling in diverse real-world (left) and synthetic (right) scenes. For visualization purposes, we overlay multiple video frames onto each image to illustrate the object motion. Our real-world videos enable us to evaluate the physical fidelity of generated video outputs, while our synthetic videos allow us to improve this accuracy via post-training alignment methods.

创建时间：

2025-03-12

原始信息汇总

Pisa Experiments

Pisa Experiments 是一个包含真实世界和合成场景中物体下落视频的新视频数据集。该数据集用于评估生成视频输出的物理准确性，并通过后训练对齐方法提高准确性。

数据集概览

数据集名称：Pisa Experiments
数据集描述：包含物体在现实世界和合成场景中下落的视频，用于评估和改进视频扩散模型的物理准确性。
数据集组成：
- 真实世界视频：361个视频，使用手机相机以120帧/秒的慢动作记录。
- 合成测试视频：60个视频，分为两个部分，一部分包含训练中看到的物体和背景，另一部分包含未见过的物体和背景。
数据格式：
- 真实世界视频：图片序列（.jpg），视频文件（.mp4），信息文件（clip_info.json）。
- 合成测试视频：图片序列（.jpg），动图（.gif），分割掩码文件（mask.npz），信息文件（clip_info.json）。

发布日期

2025-3-12：发布 PisaBench、训练数据、模型检查点和代码。

使用说明

安装：提供克隆仓库和子模块的命令，创建conda环境的步骤。
评估：安装SAM 2依赖，运行评估脚本。
数据模拟：使用Kubric生成模拟物理视频，提供生成单个视频和多个视频的脚本。
后训练：提供基于监督微调和奖励模型优化的后训练代码和脚本。

评估结果

评估了4个开放模型和4个封闭模型，以及通过监督微调（PSFT）和物体奖励优化（ORO）后训练的OpenSora。

引用

如果您的研究中使用了本论文和代码，请考虑给我们一个star并引用我们的工作。

联系方式

如有任何问题或建议，请随时联系：lichenyuthu@gmail.com 或 micheloscar20@gmail.com。

搜集汇总

数据集介绍

构建方式

PisaBench数据集的构建采用实际拍摄与模拟生成相结合的方式。实际视频部分通过在多种真实场景中释放悬挂物体的方式进行慢动作拍摄，以获取物理运动的高精度视频；模拟视频部分则利用Kubric工具，结合PyBullet和Blender，生成具有物理信息的合成视频。

特点

PisaBench数据集的特点在于其涵盖了丰富的真实世界和合成场景下的物体下落视频，这不仅为评估生成视频的物理准确性提供了条件，也为通过后训练对齐方法提高准确性提供了可能。数据集包含详细的视频帧、注释信息和物体运动轨迹，为物理感知视频生成的研究提供了全面的基础。

使用方法

使用PisaBench数据集首先需要克隆仓库并初始化子模块，接着创建相应的conda环境。对于模型评估，需要安装SAM 2依赖并按照提供的脚本进行数据转换、标注生成和评估流程。数据集提供了详细的安装和使用指南，以及用于后训练和模拟数据生成的脚本，便于研究者快速上手。

背景与挑战

背景概述

PisaBench数据集是在2025年3月12日由纽约大学和英特尔实验室的研究人员共同发布的。该数据集旨在通过观察物体下落的过程，探索物理信息在视频扩散模型中的作用。数据集包含了361段真实世界的视频和60段模拟的视频，这些视频用于评估生成视频输出的物理准确性以及通过后训练对齐方法提高准确性。PisaBench的发布为视频生成模型在物理准确性方面的研究提供了一个新的评估框架，对相关领域产生了重要影响。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1) 真实世界视频的拍摄和编辑，需要保证视频的物理准确性和质量；2) 模拟视频的生成，需要使用高级的模拟和渲染技术来保证视频的真实性；3) 数据集的评估，需要设计有效的评估指标和方法来衡量模型在物理准确性方面的表现。此外，该数据集在解决视频生成领域的物理准确性问题时，面临的挑战包括如何有效利用物理信息来指导模型训练，以及如何提高模型在不同场景下的泛化能力。

常用场景

经典使用场景

PisaBench 数据集的使用场景主要围绕物理信息在视频扩散模型中的后训练探索。该数据集包含现实世界和合成场景中物体下落的视频，旨在评估生成视频输出的物理准确性，并通过后训练对齐方法提高精度。

解决学术问题

该数据集解决了视频生成模型中物理现象再现的准确性问题，为评估和提升模型在物理模拟方面的性能提供了标准。通过这一数据集，研究者能够对模型进行物理监督微调以及对象奖励优化，从而提高模型在生成视频时的物理一致性。

衍生相关工作

基于 PisaBench 数据集，研究者已经开展了一系列相关工作，包括但不限于对视频扩散模型的后训练方法研究，以及物理信息在视频生成中的应用。这些工作进一步推动了视频生成技术的进步，为相关领域的发展奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集