T2VPhysBench
收藏arXiv2025-05-01 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.00337v1
下载链接
链接失效反馈官方服务:
资源简介:
T2VPhysBench是一个基于物理定律的基准测试,旨在评估文本到视频生成模型是否遵循十二个核心物理定律,包括牛顿力学、守恒定律和现象学效应。该数据集包含十个最先进的视频生成模型,这些模型在2023年至2025年之间发布,涵盖了闭源和开源系统。每个模型都使用84个不同的提示进行评估,每个提示基于真实的场景设计,旨在测试模型对基本物理行为的理解。评估协议采用完全手动的方式,由三个评估者对每个生成的视频进行评分,以衡量其对目标物理定律的遵守程度。
T2VPhysBench is a physics-law-grounded benchmark designed to evaluate whether text-to-video generation models adhere to twelve core physical laws, including Newtonian mechanics, conservation laws, and phenomenological effects. This benchmark encompasses ten state-of-the-art video generation models released between 2023 and 2025, covering both closed-source and open-source systems. Each model is evaluated using 84 distinct prompts, each of which is designed based on realistic scenarios to test the model's understanding of fundamental physical behaviors. The evaluation protocol is fully manual: three evaluators score each generated video to measure its compliance with the target physical laws.
提供机构:
Guilin University of Electronic Technology, University of Arizona, University of Wisconsin-Madison, The Simons Institute for the Theory of Computing at the UC, Berkeley, Arizona State University
创建时间:
2025-05-01
搜集汇总
数据集介绍

构建方式
T2VPhysBench数据集的构建基于第一性物理原理,系统地评估了文本到视频生成模型对12项核心物理定律的遵循情况,包括牛顿力学、守恒定律和现象学效应。该数据集通过精心设计的提示词,覆盖了从刚体碰撞到能量守恒等多种物理场景,每个定律下设计了7个具体提示,共计84个评估场景。数据集的评估采用人工标注方式,由三名独立评审员对生成的视频进行物理一致性评分,确保评估结果的可靠性和准确性。
特点
T2VPhysBench数据集的特点在于其严格的物理定律评估框架和全面的人工标注协议。该数据集不仅涵盖了广泛的物理定律类别,还通过多层次的提示设计(包括初始提示、一级提示和二级提示)深入探究了模型对物理定律的理解能力。此外,数据集还引入了反事实提示,以测试模型在明确违反物理定律的情况下的表现。这些特点使得T2VPhysBench成为评估文本到视频生成模型物理一致性的重要基准。
使用方法
使用T2VPhysBench数据集时,研究人员可以通过其提供的84个物理场景提示,对文本到视频生成模型进行系统性评估。每个提示生成的视频将由人工评审员根据物理一致性进行评分,评分范围为0到1,分别对应完全违反、明显违反、基本符合和完全符合物理定律。研究人员可以通过分析模型在不同物理定律类别下的得分,识别模型在物理一致性方面的薄弱环节。此外,数据集的反事实提示可用于测试模型在极端情况下的表现,为进一步改进模型提供指导。
背景与挑战
背景概述
T2VPhysBench是由桂林电子科技大学、亚利桑那大学、威斯康星大学麦迪逊分校等机构的研究团队于2025年提出的首个基于第一性原理的文本生成视频物理一致性评测基准。该基准系统性地评估了开源和商业文本生成视频模型对牛顿力学、守恒定律等12项基础物理定律的遵循程度,填补了生成式AI领域缺乏物理规律验证体系的空白。研究团队通过严格的人工评估协议发现,现有模型在所有物理定律类别的平均合规分数均低于0.60,揭示了当前视频生成技术在物理建模方面的根本性缺陷。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决文本生成视频中普遍存在的刚体碰撞违反、能量不守恒等物理规律失准问题,这对机器人、自动驾驶等安全关键应用构成严重隐患;在构建过程中,研究团队需克服传统像素级评估指标与人类判断的偏差,设计出能准确反映第一性原理的评测框架。具体挑战包括:如何建立物理定律与生成场景的映射关系,如何设计渐进式提示词来区分表面模式匹配与真实物理理解,以及如何通过反事实提示验证模型的物理推理能力。
常用场景
经典使用场景
T2VPhysBench数据集在文本到视频生成领域中被广泛用于评估模型对物理定律的遵循能力。通过设计基于牛顿力学、守恒定律和现象学原理的提示词,该数据集能够系统地测试模型在生成视频时是否能够准确反映现实世界的物理规律。例如,模型需要生成符合牛顿第三定律的视频,展示作用力与反作用力的关系。
实际应用
在实际应用中,T2VPhysBench的评估结果对安全关键领域如机器人技术和自动驾驶具有重要指导意义。例如,在自动驾驶模拟中,生成的视频需要严格遵守物理规律以确保训练数据的可靠性。该数据集帮助识别模型生成的违反物理规律的视频,从而避免在实际应用中出现安全隐患。
衍生相关工作
T2VPhysBench的发布推动了多项相关研究的发展。例如,基于其评估结果,研究者提出了结合物理引擎的混合生成模型,如WISA(World Simulator Assistant)系统。此外,该数据集还启发了VideoPhy等后续工作,进一步细化了材料碰撞等物理现象的评估标准。
以上内容由遇见数据集搜集并总结生成



