cross-scenario-physics-code-transfer

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/physics-code-transfer-bench/cross-scenario-physics-code-transfer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为跨场景物理代码迁移基准，旨在评估跨场景物理代码迁移的性能，特别关注冻结视频特征上的组合性度量。数据集包含四个Kubric场景（碰撞、斜坡、平面掉落、弹性）的1800个场景，以及75个低重力碰撞变体场景。提供了8个冻结骨干网络的预提取特征（如V-JEPA 2、DINOv2-S/L等）和Phys101 V-JEPA 2特征。数据集还包括地面真实的每对象位置和速度轨迹，以及渲染的场景视频（256×256，24fps，48帧）。当前Hugging Face仓库存储了评审所需的核心子集，包括碰撞场景的V-JEPA 2特征、所有Kubric标签文件和完整的复现代码。数据集适用于非商业研究用途，遵循Apache 2.0许可证，并包含详细的元数据和负责任AI注释。

创建时间：

2026-05-05

原始信息汇总

数据集概述：Cross-Scenario Physics-Code Transfer Benchmark

基本信息

数据集名称：Cross-Scenario Physics-Code Transfer Benchmark（跨场景物理代码迁移基准）
许可证：Apache-2.0
语言：英语
数据规模：1K < n < 10K
数据集标签：物理、基准测试、跨场景迁移、组合性、冻结特征、视频基础模型、Kubric、Phys101

数据集核心内容

本数据集用于支持 NeurIPS 2026 评估与数据集轨道的投稿论文《A Benchmark for Cross-Scenario Physics-Code Transfer: Compositionality Metrics on Frozen Video Features》。当前版本为匿名评审版本，提供了审稿人检查数据质量和验证实验协议所需的核心子集。

文件结构

├── features/ │ └── vjepa2_collision_pooled.pt # V-JEPA 2 特征，600个碰撞场景，形状[600, 4, 1024]，float32 ├── labels/ │ ├── labels_collision.npz # 600个碰撞场景的质量标量/分箱 + 恢复系数标量/分箱 │ ├── labels_ramp.npz # 斜坡场景的恢复系数 + 摩擦标签（300个场景） │ ├── labels_flat_drop.npz # 平面下落场景的恢复系数 + 摩擦标签（300个场景） │ ├── labels_elasticity.npz # 弹性场景的恢复系数 + 下落高度标签（600个场景） │ └── labels_ramp_3prop.npz # 斜坡场景的多属性训练标签（3属性） └── code/ # 重现论文结果的脚本（17个Python文件）

完整基准（论文描述） vs. 当前发布

当前发布内容（负载承载子集）

V-JEPA 2 特征（碰撞源场景）
全部4个Kubric标签文件
完整重现代码

完整基准（论文中描述，约70GB）

全部4个Kubric场景：碰撞、斜坡、平面下落、弹性（总计1,800个场景）
75个场景的低重力碰撞变体（视觉匹配）
8个冻结骨干网络的预提取特征（V-JEPA 2、V-JEPA 2.1、DINOv2-S/L、CLIP ViT-L/14、MAE、SigLIP、VideoMAE）
Phys101 V-JEPA 2 特征（弹簧/斜坡/下落，2,673个片段）
逐物体真实位置和速度轨迹
渲染的场景视频（256×256，48帧，24fps）

完整内容将在论文被接收后公开释放。

关键用途

可验证的结果

头版结果：前5 vs 后5的PosDis充分性观测，排列检验 p = 0.84
场景内协议验证
标签分箱逻辑验证
消息提取管道验证
24种配置扫描的排列检验
架构内分析

重现头版结果步骤

通过 Hugging Face CLI 下载数据集
建立预期目录结构
运行排列检验脚本：python _compute_perm_test.py 和 python _compute_within_arch_perm.py
（可选）重新运行碰撞场景内发送器训练：python _rev_q_addendum2_high_posdis.py

数据来源与场景

本数据集基于 Kubric 生成的物理模拟场景，包含以下物理属性：

质量（标量/分箱）
恢复系数（标量/分箱）
摩擦系数
下落高度

引用信息

bibtex @inproceedings{anonymous2026benchmark, title = {A Benchmark for Cross-Scenario Physics-Code Transfer: Compositionality Metrics on Frozen Video Features}, author = {Anonymous Authors}, booktitle = {NeurIPS 2026 Evaluations & Datasets Track (under review)}, year = {2026} }

许可说明

基准测试和代码：Apache License 2.0
Phys101 特征：基于 Phys101（CC-BY 4.0）提取
V-JEPA 2 / V-JEPA 2.1 特征：基于 Meta CC-BY-NC 4.0 研究许可证提取，仅用于非商业研究

搜集汇总

数据集介绍

构建方式

该数据集专为评估跨场景物理代码迁移能力而设计，依托Kubric物理引擎生成了涵盖碰撞、斜面、平面跌落与弹性弹跳四种场景的1,800个视频片段。核心构建思路在于，通过固定预训练视频编码器（如V-JEPA 2）的参数并从中提取平均池化特征张量，再结合每个场景对应的物理属性标签（如质量、恢复系数、摩擦系数），形成结构化的特征-标签对。数据集中还包含了75段低重力碰撞场景及Phys101数据集的部分特征，以便探究特征在不同物理条件下的可迁移性与组合性。

特点

该基准的突出特点在于其跨场景组合性与冻结特征评估框架。不同场景共享相似的物理定律但视觉外观迥异，使得模型需依赖抽象的物理代码而非视觉相似性进行预测。通过将物理属性离散化为区间标签，并执行消息提取、域内训练与置换检验等分析流程，研究者能够量化预训练特征编码物理信息的充分性与组合性。此外，数据集提供了多种主流的视频与图像骨干网络预提取特征（如DINOv2、CLIP、MAE等），支持跨架构的性能比较。

使用方法

数据集提供了便捷的复现流程：可通过HuggingFace CLI下载特征张量与标签文件，并使用配套代码目录中的Python脚本直接运行置换检验与域内训练实验，例如执行`_compute_perm_test.py`即可验证论文中关于位置距离充分性的核心结论（p=0.84）。研究人员还可利用Croissant元数据文件了解数据的分割方式与负责任AI标注，或基于提供的特征-标签对进行自定义的物理概念探查与线性探针实验，无需重新渲染视频或提取特征，降低了使用门槛。

背景与挑战

背景概述

在视频基础模型蓬勃发展的浪潮中，如何评估模型对物理世界动态规律的理解与泛化能力，成为了一项关键挑战。针对此需求，由匿名研究团队构建的Cross-Scenario Physics-Code Transfer Benchmark应运而生，该基准于2026年提交至NeurIPS评估与数据集轨道。核心研究问题在于探究冻结的视频特征能否在不同物理场景间实现物理代码的迁移，即模型在碰撞场景中学习到的质量与恢复系数等物理属性表征，能否成功泛化至斜坡、平抛、弹性碰撞等异构场景。依托Kubric仿真引擎生成1，800个场景与Phys101数据集，该基准为量化视频特征的组合性与跨场景迁移能力提供了标准化平台，有望深刻推动视频基础模型在物理推理领域的评估范式。

当前挑战

该基准面临的首要领域挑战是评估视频模型对物理动态组合性的理解，不同于传统动作识别或目标追踪，其要求模型从视觉特征中解耦出质量、恢复系数等隐性物理参数，并验证这些量在跨场景时的表征一致性。构建过程中的挑战则主要体现在数据与特征的规模化复杂性：需确保四个Kubric子场景间视觉风格统一但物理参数可组合变化，同时为八种冻结骨干网络提取并管理超70GB的特征张量。此外，75场景低重力变体的设计、Phys101特征与视频基准的兼容性处理，以及精密置换检验协议与多轮消融实验流程的代码化整合，均对数据构建的完整性与可复现性提出了严苛要求。

常用场景

经典使用场景

在视频基础模型的特征泛化能力评估中，cross-scenario-physics-code-transfer基准数据集主要用于衡量冻结视频特征在不同物理场景间的代码迁移性能。该数据集精心构建了碰撞、斜坡、自由落体和弹性碰撞四种Kubric物理场景，共计1800个场景样本，通过提取V-JEPA2等八种骨干网络的冻结特征，设计了一种基于组合性度量的高维方法，系统评估特征在不同物理规律场景间的零样本迁移能力，为视频表征学习提供了科学的泛化性能测试平台。

解决学术问题

该数据集针对视频基础模型特征泛化研究中长期存在的跨场景迁移评估缺失问题，提出了首个标准化的跨场景物理代码迁移基准。它解决了如何定量衡量冻结视频特征在物理参数变化下的语义一致性保持能力这一核心学术难题，通过引入位置距离、消息提取等组合性度量指标，以及严谨的置换检验统计框架，为评估特征的场景泛化性能提供了可重复的实验范式，对理解视频基础模型的内在世界模型构建具有重要理论意义。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集