pisa-experiments

Hugging Face2025-03-15 更新2025-03-16 收录

下载链接：

https://huggingface.co/datasets/nyu-visionx/pisa-experiments

下载链接

链接失效反馈

官方服务：

资源简介：

PisaBench数据集包含361个现实世界视频，这些视频展示了物体下落的任务，以及60个模拟测试视频，用于研究物理后训练如何影响视频扩散模型。每个视频文件都附带一个clip_info.json文件，其中包含视频的正负点注释和文本描述。此外，该数据集还提供了使用Google Kubric生成的训练数据，以及不同后训练方法的模型检查点。

创建时间：

2025-03-06

原始信息汇总

Pisa Experiments 数据集概述

许可

Apache-2.0

语言

英语 (en)

数据规模

小型数据集 (n<1K)

数据集组成

真实世界视频

包含361个展示下落任务的视频。
视频格式：jpg, mp4, clip_info.json
真实世界视频下载链接：pisabench/real.zip

模拟测试视频

包含60个用于理解sim2real迁移的模拟视频。
视频格式：jpg, gif, mask.npz, clip_info.json
模拟测试视频下载链接：pisabench/sim.zip

训练数据

使用Google的Kubric生成模拟物理视频。
使用Google Scanned Objects (GSO)数据集。
训练数据下载链接：
- Physics Supervised Fine-Tuning (PSFT): training_data/psft.zip
- Object Reward Optimization (ORO): training_data/oro.zip

检查点

Open-Sora + PSFT (base): /checkpoints/base
base + ORO (Seg): /checkpoints/oro_seg
base + ORO (Flow): /checkpoints/oro_flow
base + ORO (Depth): /checkpoints/oro_depth

数据集下载

python from huggingface_hub import snapshot_download

dataset_path = PATH # The local directory to save downloaded dataset snapshot_download("nyu-visionx/pisa-experiments", local_dir=dataset_path, repo_type=dataset)

引用

bibtex @article{li2025pisa, title={Pisa Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop}, author={Li, Chenyu and Michel, Oscar and Pan, Xichen and Liu, Sainan and Roberts, Mike and Xie, Saining}, journal={arXiv preprint arXiv:2503.09595}, year={2025}, }

搜集汇总

数据集介绍

构建方式

Pisa Experiments数据集的构建采取了对现实世界视频的精心策划，以及使用Kubric工具生成的模拟物理视频。现实世界视频通过手机摄像头以120帧/秒的慢动作记录，确保了动作的连贯性和细节的准确性。每个视频文件包括帧图像、视频文件以及包含正负点注释和文本描述的JSON文件。此外，模拟测试视频则分为两个子集，分别包含训练期间见过和未见过的物体及背景，并提供了相应的分割掩膜和描述信息。

特点

该数据集的特点在于其独特的构建方式，结合了现实世界视频与模拟视频，为视频扩散模型提供了丰富的物理后训练资源。它包含了详细的注释和描述，有助于模型理解和模拟现实世界中的物理现象。此外，数据集的多样性和真实性使其在sim2real转移学习方面具有显著价值。

使用方法

使用Pisa Experiments数据集时，用户可以通过HuggingFace Hub提供的snapshot_download函数轻松下载。数据集包含了训练数据、模型检查点以及真实和模拟的视频，用户可以依据需求选择相应的数据子集。为了促进研究，数据集还提供了详细的文献引用信息，以便于在学术出版物中正确引用。

背景与挑战

背景概述

Pisa Experiments数据集，创建于2025年，是由Li Chenyu、Michel Oscar等研究人员在纽约大学视觉计算实验室（Vision-X at NYU）的共同努力下发展起来的。该数据集旨在探索通过观察物体下落来对视频扩散模型进行物理后训练的方法，其研究成果已发表在arXiv上。数据集包含了361段展示下落任务的实况视频，以及用于模拟测试的60段视频，这些视频通过精细的标注与描述，为视频处理领域提供了宝贵的资源。Pisa Experiments数据集的出现，对提升视频模型对物理现象的理解与模拟能力，具有显著的研究价值和影响力。

当前挑战

Pisa Experiments数据集面临的挑战主要在于两个方面：一是领域问题解决的挑战，即如何通过后训练过程提升视频模型对物理现象的准确预测和再现；二是构建过程中的挑战，包括实况视频的采集、模拟视频的生成，以及大规模视频数据的有效标注与管理。这些挑战不仅考验着数据处理和模型训练的技术，也对数据集的质量和实用性提出了高要求。

常用场景

经典使用场景

在视频处理与生成领域，Pisa Experiments数据集的典型应用场景为探究物理学后训练对视频扩散模型的影响。该数据集通过观察物体下落的过程，为视频扩散模型提供了物理行为的监督训练，旨在提升模型对现实世界物理现象的理解与再现。

解决学术问题

Pisa Experiments数据集解决了视频生成模型在物理交互真实性方面的不足。通过引入物理学后训练，该数据集帮助模型克服了仅依赖传统监督训练所难以达到的物理行为模拟精度，为学术研究提供了深入探讨视频生成模型与物理规律融合的途径。

衍生相关工作

基于Pisa Experiments数据集的研究，衍生出了多项相关工作，包括但不限于物理引导的视频生成模型、新型物理交互式渲染技术，以及针对特定物理现象的模型优化方法，为计算机视觉与图形学领域带来了新的研究方向与突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集