PDI-Dataset
收藏arXiv2026-05-15 更新2026-05-16 收录
下载链接:
https://pdi-bench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
PDI-Dataset是由清华大学IEI实验室等机构联合构建的几何一致性评估数据集,旨在系统评估生成视频模型的物理合理性。该数据集包含183个高质量视频,源自28个多样化文本提示,涵盖纵向收敛、动态跟踪、生物运动、曲线运动和部分遮挡五大关键物理场景,数据来源于真实世界视频和六种前沿开源与闭源视频生成模型。数据集通过精心设计的文本提示生成,并利用分割与点跟踪技术提取物体中心观测,再通过单目重建提升至三维世界坐标。该数据集主要应用于生成式视频模型的几何一致性评估领域,旨在解决现有评估方法无法量化三维物理规律(如尺度-深度对齐、运动一致性和结构刚性)的问题,为开发空间感知生成系统提供关键诊断信号。
The PDI-Dataset is a geometric consistency evaluation dataset jointly constructed by the IEI Lab of Tsinghua University and other institutions, with the goal of systematically evaluating the physical plausibility of video generation models. This dataset comprises 183 high-quality videos derived from 28 diverse text prompts, covering five core physical scenarios: longitudinal convergence, dynamic tracking, biological motion, curvilinear motion, and partial occlusion. The dataset is built upon real-world videos and six cutting-edge open-source and closed-source video generation models. It is generated via meticulously designed text prompts, extracts object-centric observations through segmentation and point tracking technologies, and is then lifted to 3D world coordinates via monocular reconstruction. Primarily applied in the field of geometric consistency evaluation for generative video models, this dataset addresses the critical limitation of existing evaluation methods: their inability to quantify 3D physical laws such as scale-depth alignment, motion consistency and structural rigidity, providing key diagnostic signals for the development of space-aware generative systems.
提供机构:
清华大学·IEI实验室; 威斯康星大学麦迪逊分校; 奥多比研究院
创建时间:
2026-05-15
原始信息汇总
数据集概述
PDI-Bench(Perspective Distortion Index)是一个用于评估生成视频几何一致性的量化框架和配套数据集。该数据集旨在通过客观的几何度量,诊断视频生成模型在三维物理世界模拟中的失败模式。
数据集名称
- PDI-Dataset(由 PDI-Bench 框架配套构建)
数据集目的
- 评估生成视频在尺度-深度对齐、三维运动一致性和三维结构刚性三个维度上的几何一致性。
- 弥补现有视频评估方法(如人工判断或学习型评分器)在几何故障诊断方面的主观性和弱诊断性。
数据集内容
- 覆盖多种场景,用于系统评估生成视频的物理真实性。
评估指标(PDI Score)
- 综合三个几何一致性维度计算得出,分数越低表示越符合三维物理规律。
- 三维几何一致性维度:
- 尺度-深度对齐(Scale-Depth Alignment)
- 三维运动一致性(3D Motion Consistency)
- 三维结构刚性(3D Structural Rigidity)
评估流程(PDI-Bench Pipeline)
- 语义目标定位(Semantic Targeting):使用 SAM 2 分割并确定评估对象的二维空间边界。
- 三维几何提升(3D Geometric Uplifting):使用 MegaSaM 重建物理环境,将像素投影到统一的三维世界空间点云。
- 三维结构锚定(3D Structural Anchoring):使用 CoTracker3 追踪密集像素锚点,将其提升为结构性三维轨迹,用于刚性审计。
数据集中的示例场景
- 熊(Bear)
- 黑天鹅(Black Swan)
- 风筝冲浪(Kite Surf)
- 婴儿车(Stroller)
- 足球(Soccer Ball)
- 汽车阴影(Car Shadow)
主要结果(部分,来自 Leaderboard)
| 排名 | 模型 | 机构 | PDI Score ↓ |
|---|---|---|---|
| 1 | 真实世界(Ground Truth) | 真实世界 | 0.1206 |
| 2 | Seedance 2.0 | ByteDance | 0.2422 |
| 3 | CogVideoX-3 | 智谱AI | 0.2480 |
| 4 | Veo 3.1 | 0.4521 | |
| 5 | Wan 2.2 | Alibaba | 0.5595 |
| 6 | Sora | OpenAI | 0.8255 |
| 7 | HunyuanVideo | 腾讯混元 | 0.8825 |
引用信息
- 论文标题:Quantitative Video World Model Evaluation for Geometric-Consistency
- 作者:Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou
- 机构:清华大学(IEI Lab)、威斯康星大学麦迪逊分校、Adobe Research
- 论文链接:https://arxiv.org/abs/2605.15185
- 代码与模型:通过 arXiv、Code、Hugging Face 链接获取
补充说明
- 页面中的雷达图(Model Radar)以 Min-Max 相对真实世界(GT)的方式展示各模型在三个维度上的表现,得分越高表示越接近真实世界。
搜集汇总
数据集介绍

构建方式
PDI-Dataset 的构建源于对生成视频几何一致性系统评估的需求。研究者精心采集了 15 段来自公开平台的高质量真实世界短视频,作为物理基准;同时,利用 28 个涵盖纵向收敛、动态跟踪、生物运动、曲线运动及部分遮挡五种关键物理场景的文本提示,借助六个当前顶尖的视频生成模型(包括开源与闭源架构),生成了 168 段合成视频。所有视频均被统一处理为 24 帧/秒的帧率与 4 至 12 秒的时长,并通过裁剪与缩放归一化为 512×512 像素的分辨率,从而构成一个包含 183 个序列的、专为压力测试三维空间感知能力而设计的综合性基准数据集。
特点
该数据集的核心特点在于其围绕明确的几何约束进行构建,而非依赖主观的视觉评估。它覆盖了五种精心设计的物理场景,能够系统性暴露生成模型在尺度-深度对齐、三维运动一致性与三维结构刚性三个正交维度上的失败模式。通过提供真实世界视频作为对比基线,PDI-Dataset 不仅能够量化模型在保持小孔成像几何不变量方面的能力,还能精准诊断诸如“体积呼吸”(物体非物理性膨胀或收缩)与“冰上滑行”(物体运动与地面透视关系脱节)等几何幻觉,为评估视频生成模型作为隐式世界模型的物理合理性提供了独特且严格的标尺。
使用方法
PDI-Dataset 的使用需配合其配套的 PDI-Bench 评估框架。用户首先通过语义分割模型(如 SAM 2)与自动文本提示,从视频中隔离出待审计的主体。随后,利用单目重建技术(如 MegaSaM)将二维像素观测提升至统一的三维世界坐标,并借助密集点追踪器(如 CoTracker3)在主体内部部署结构锚点,获得其三维轨迹。最后,根据预设的三个维度(尺度、轨迹、刚性)的残差计算公式,对视频进行审计,并输出量化的 PDI 分数(越低越优)。该框架提供了一个端到端、可解释的自动化方案,用于客观评价视频生成模型在遵循基础物理规则方面的表现。
背景与挑战
背景概述
PDI-Dataset由清华大学IEI实验室的Jiaxin Wu、Yihao Pi等研究人员联合威斯康星大学麦迪逊分校与Adobe Research于2026年创建,旨在解决生成式视频模型作为隐式世界模型时几何一致性评估缺失的核心问题。该数据集聚焦于量化视频生成中的三维物理真实性,涵盖纵向收敛、动态跟踪、生物运动、曲线运动及部分遮挡等五种关键几何挑战场景。通过构建包含183个高质量视频序列的基准,其中15个真实世界视频作为物理基线,168个来自六种前沿生成模型的合成视频,PDI-Dataset为评估视频生成模型的尺度-深度对齐、三维运动一致性与结构刚性提供了标准化测试平台。该数据集填补了传统感知指标(如FVD、CLIP分数)无法检测几何失效的空白,对推动物理可解释的视频生成研究具有重要影响。
当前挑战
PDI-Dataset面临的核心挑战在于解决生成视频中普遍存在的几何失真问题。首先,现有模型常出现“体积呼吸”(物体非真实膨胀收缩)、“滑行”(运动与透视解耦)等违反欧几里得性质的失效模式,这些源于生成过程中缺乏显式结构约束。其次,构建数据集时需克服多源挑战:1)确保真实视频具有足够视差用于三维重建且避免运动模糊;2)设计28个精细文本提示以隔离特定几何变换;3)统一处理不同模型的生成参数(如帧率、分辨率、随机种子)以保证公平比较。此外,依赖SAM 2、MegaSaM等现成感知工具进行三维抬升时,低纹理或低视差场景可能引入测量噪声,需通过多阶段保真度检查(如重投影验证、轨迹审核)确保数据可靠性。
常用场景
经典使用场景
PDI-Dataset最经典的用途在于为视频生成模型提供一套基于三维几何一致性的量化评估基准。该数据集涵盖纵向收敛、动态跟踪、生物运动、曲线运动及部分遮挡五大压力测试场景,共包含183段高质量视频序列,其中15段真实世界视频作为物理基线校准,其余168段由六个代表性视频生成模型(如Seedance 2.0、CogVideoX-3、Sora等)根据28个精心设计的文本提示生成。研究者利用该数据集,通过透视畸变指数(PDI)系统性地审计生成视频在尺度-深度对齐、三维运动一致性与结构刚性三个正交维度上的物理合理性,从而客观揭示模型在三维空间理解方面的隐藏缺陷。
实际应用
在实际应用中,PDI-Dataset可服务于需要高度物理真实感的产业领域。在数字内容创作中,影视特效师利用该基准筛选能精准还原透视规律与刚体运动学的视频生成模型,从而避免耗费高昂的人工修正成本。在机器人仿真与具身智能领域,该数据集帮助评估世界模型输出的三维场景是否满足牛顿惯性定律与欧几里得几何约束,确保仿真环境对下游感知与控制策略的可靠性。此外,自动驾驶模拟平台可借助PDI指标校验生成的动态场景中物体尺度与运动轨迹的物理一致性,为安全关键系统的开发提供严谨的验证环节。
衍生相关工作
基于PDI-Dataset衍生的经典工作主要包括三类方向。其一,研究者借鉴其‘感知-提升-锚定’流水线,将二维点跟踪网络(如CoTracker3)与单目三维重建模型(如MegaSaM)深度融合,开发出面向非刚性物体形变评估的扩展度量。其二,该数据集催生了透视畸变指数(PDI)的轻量化蒸馏研究,通过知识蒸馏将几何审计信号压缩为可实时推理的神经网络评估器,显著降低了大规模视频评测的计算开销。其三,受PDI-Bench对自回归长视频生成中尺度漂移的发现启发,学者们提出了结合显式空间记忆模块的架构改进方案,有效缓解了生成模型在超出训练上下文窗口时的物体体积遗忘现象。
以上内容由遇见数据集搜集并总结生成



