PID (Physical Implausibility Detection) dataset
收藏arXiv2025-12-02 更新2025-12-03 收录
下载链接:
https://github.com/Zeqing-Wang/PhyDetEx
下载链接
链接失效反馈官方服务:
资源简介:
PID数据集是由中山大学、香港理工大学及OPPO研究院联合构建的物理不可行性检测基准,旨在评估文本到视频生成模型对物理规律的理解与遵循能力。该数据集包含总计3088条视频样本,其中训练集由2588对正负样本视频组成,测试集包含500条人工标注视频,数据来源于真实世界视频及多种T2V模型生成内容,通过改写视频描述诱导模型产生物理异常内容而构建。数据集构建过程采用基于VIDGEN-1M真实视频的标注改写与生成流程,确保数据分布贴近真实物理场景。该数据集主要应用于计算机视觉与人工智能领域,用于训练和评估视觉语言模型在检测视频物理合理性方面的性能,解决T2V模型生成内容违反物理定律的量化评估与可解释性分析问题。
The PID Dataset is a physical impossibility detection benchmark jointly constructed by Sun Yat-sen University, The Hong Kong Polytechnic University, and OPPO Research Institute, aiming to evaluate the ability of text-to-video (T2V) generation models to understand and comply with physical laws. This dataset contains a total of 3088 video samples, among which the training set consists of 2588 pairs of positive and negative sample videos, and the test set includes 500 human-annotated videos. The data is sourced from real-world videos and content generated by multiple T2V models, and is constructed by rewriting video descriptions to induce models to produce physically anomalous content. The dataset construction process adopts the annotation rewriting and generation pipeline based on real videos from VIDGEN-1M, ensuring that the data distribution is close to real physical scenarios. This dataset is mainly applied in the fields of computer vision and artificial intelligence, and is used to train and evaluate the performance of vision-language models (VLMs) in detecting the physical plausibility of videos, so as to solve the problems of quantitative evaluation and interpretability analysis on content generated by T2V models that violate physical laws.
提供机构:
中山大学、香港理工大学、OPPO研究院
创建时间:
2025-12-02
原始信息汇总
PhyDetEx 数据集概述
数据集基本信息
- 数据集名称: PhyDetEx (Physical Implausibility Detection Dataset)
- 官方仓库地址: https://github.com/Zeqing-Wang/PhyDetEx
- 关联论文: "VideoVerse: How Far is Your T2V Generator from a World Model?"
- 数据集发布: 2025年12月01日
数据集目的与内容
- 核心目的: 用于检测和解释文本到视频(T2V)模型生成内容的物理合理性。
- 主要功能: 提供用于检测物理上不合理内容的模型(PhyDetEx)及对应的评测数据集(PID Dataset)。
- 数据集构成: 包含物理不合理性检测(PID)数据集,分为训练集(PID Train Split)和测试集(PID Test split)。
数据集获取与结构
-
主要获取地址: https://huggingface.co/datasets/NNaptmn/PhyDetExDatasets
-
测试集文件:
PID_Test_split.zip -
测试集目录结构:
PID_test/ pos/ # 存放合理(Plausible)视频 video_xxx.mp4 ...... neg/ # 存放不合理(Implausible)视频 video_xxx.mp4 ...... anno_file.json # 标注文件
-
额外数据: 提供基于Impossible-Videos项目预处理的物理定律相关数据文件
ImpossibleVideos_Physical_Law_Only.zip。
模型与工具
- 检测模型: PhyDetEx 模型,可从 https://huggingface.co/NNaptmn/PhyDetEx 下载。
- 训练框架: 推荐使用 LLaMA-Factory (https://github.com/hiyouga/LLaMA-Factory) 进行模型训练。
- 推理部署: 推荐使用 lmdeploy (https://github.com/InternLM/lmdeploy) 部署大型语言模型(LLM)以获取推理分数,论文中使用 LLaMa3 8B。
使用与评测
- 环境准备: 通过
pip install -r requirements.txt安装依赖,需注意 transformers 版本对特定指标的影响。 - 测试集评测: 运行
benchmark_on_pid_test_split.py脚本,结果输出至./res/res_on_pid_test.json,包含 F1 Score、Acc Plausible 和 Acc Implausible 指标。 - 推理分数获取: 运行
infer_llm_score_for_pid_test_lmdeploy.py脚本。 - ImpossibleVideos 数据评测: 运行
benchmark_on_impossible_videos.py和infer_llm_score_for_impossible_video_lmdeploy.py脚本。
致谢与引用
- 数据与代码借鉴: 大量借鉴了 ImpossibleVideos 和 LLaMA-Factory 的数据与代码。
- 问题反馈: 可通过 https://github.com/Zeqing-Wang/PhyDetEx/issues 提交问题。
搜集汇总
数据集介绍

构建方式
在文本到视频生成模型日益普及的背景下,物理合理性评估成为衡量模型世界认知能力的关键维度。PID数据集的构建采用了系统化的双阶段策略:训练集部分从VIDGEN-1M真实世界视频库中选取包含明确物理交互的样本,通过大型语言模型精心改写其描述文本,将原本合理的物理事件替换为违背物理定律的表述,同时保持其他上下文元素不变,再利用文本到视频模型依据改写后的文本生成对应的物理不合理视频,最终形成2588对正负样本视频对。测试集部分则从真实用户社区采集的提示词中筛选出描述正常物理场景的文本,使用多种主流文本到视频模型生成视频,并由人工标注出其中250个意外产生的物理不合理视频及其违反的物理原理,同时混合250个来自真实世界和高质量生成视频的物理合理样本,有效避免了模型仅通过区分“生成视频”与“真实视频”来做出判断的捷径。
特点
PID数据集的核心特征在于其精心设计的对比结构与真实场景代表性。数据集通过配对样本构建,确保每个物理不合理视频与其对应的物理合理视频仅在目标物理事件上存在差异,而背景、环境等共享内容高度一致,这迫使模型必须聚焦于物理事件本身的合理性分析,而非依赖无关的视觉线索。测试集特别强调使用正常提示词下意外生成的物理不合理视频,而非基于明显不合理提示的人工构造样本,这更贴近实际应用场景,增强了评估的实用性与泛化能力。此外,所有物理不合理样本均附有人工标注的详细解释,说明了所违反的具体物理原则,为模型的可解释性评估提供了坚实基础。
使用方法
PID数据集主要用于微调视觉语言模型,使其获得物理不合理性检测与解释的能力。研究者可采用基于LoRA的参数高效微调方法,以数据集中的配对视频作为训练样本,引导模型学习区分共享背景下物理合理与不合理的内容。经过微调的模型,如论文中的PhyDetEx,能够对输入的生成视频进行二分类判断(物理合理/不合理),并生成文本解释说明其判断依据。该模型可进一步作为评估工具,用于系统性地评测不同文本到视频模型生成内容的物理一致性,通过计算物理合理率与细粒度合理性分数,量化比较各模型在遵守物理定律方面的性能。此外,模型产生的对比判断也可用于构建偏好对,通过直接偏好优化等技术对文本到视频模型进行物理感知对齐训练,从而提升其生成内容的物理真实性。
背景与挑战
背景概述
随着文本到视频生成模型在视觉质量和时序一致性方面取得显著进展,评估其物理合理性成为衡量模型是否真正理解现实世界动态的关键。由中山大学、香港理工大学及OPPO研究院的研究团队于2025年构建的PID数据集,旨在系统性地检测和解释T2V模型生成内容中违反物理定律的现象。该数据集通过精心设计的对比样本,为视觉语言模型提供了学习物理合理性判断的基础,推动了生成式人工智能向更可靠的世界模型方向发展,对视频生成模型的评估与优化产生了深远影响。
当前挑战
PID数据集致力于解决文本到视频生成领域中物理合理性评估的核心挑战,即如何准确识别生成视频中违反基本物理定律的内容。在构建过程中,研究团队面临两大主要困难:一是确保数据集的泛化能力,避免模型仅学习区分真实视频与生成视频的捷径,而非真正理解物理原理;二是生成高质量的物理不合理视频样本,需通过改写真实视频描述来诱导模型产生违反物理规律的内容,同时保持语义背景的一致性,这一过程需要精细的标注与严格的筛选机制。
常用场景
经典使用场景
在文本到视频生成模型的评估领域,PID数据集被广泛应用于物理合理性检测任务。该数据集通过精心构建的训练和测试样本,为视觉语言模型提供了学习物理常识的对比范例。其经典使用场景在于微调现有视觉语言模型,使其能够准确识别生成视频中违反物理定律的内容,例如物体穿透、动量不一致或能量不守恒等现象。这种微调后的模型不仅提升了检测精度,还能生成解释违反物理原理的文本描述,为评估文本到视频模型的物理理解能力提供了可靠工具。
解决学术问题
PID数据集主要解决了文本到视频生成领域中对物理合理性缺乏系统评估的学术问题。传统方法依赖人工设计的提示或端到端检测器,前者泛化性有限,后者可解释性不足。该数据集通过构建包含物理合理与不合理视频对的训练集,以及平衡的测试集,消除了模型依赖“生成视频即不合理”的捷径偏差。这使得研究人员能够更准确地衡量模型对物理世界的理解程度,推动了视觉语言模型在物理推理任务中的能力解锁,为构建更可靠的世界模型奠定了基础。
衍生相关工作
PID数据集催生了一系列围绕物理合理性检测的经典研究工作。其中最直接的是PhyDetEx模型,它通过轻量级微调将视觉语言模型转化为物理检测与解释器。此外,该数据集启发了对现有文本到视频模型的系统性基准测试,如对Sora2.0、Veo3.1等模型的评估比较。基于检测结果,研究人员进一步探索了物理感知的直接偏好优化方法,用于提升开源模型的生成质量。这些工作共同推动了文本到视频生成领域向物理可信的世界建模方向发展,并为后续的物理常识增强研究提供了数据基础和方法借鉴。
以上内容由遇见数据集搜集并总结生成



