phyground

Hugging Face2026-05-12 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/NU-World-Model-Embodied-AI/phyground

下载链接

链接失效反馈

官方服务：

资源简介：

PhyGround是一个用于评估生成世界模型物理推理能力的基准数据集。该数据集基于相关研究论文构建，旨在为图像到视频（I2V）和文本到视频（T2V）生成模型的物理常识理解提供评估标准。数据集核心包含250个精心设计的文本提示（prompts），每个提示都关联了需要遵守的特定物理定律（physical_laws）。对于每个提示，数据集提供了一个首帧图像（first_image），作为I2V模型的初始条件帧。基于这些提示和首帧图像，数据集收录了由8个不同的先进视频生成模型（共计10种生成配置）所生成的视频，总计2,500个视频文件。此外，数据集还提供了大规模的人工标注结果，包含352位标注者对生成视频的评分。评分从“一般质量”（包括持续性、提示-视频对齐、场景合理性）和“物理合理性”（针对提示中声明的每条物理定律）两个维度进行（1-4分），并标注了不适用于当前视频片段的物理定律。数据集文件通过统一的`id_stem`字段进行关联，确保了提示、首帧图像、各模型生成的视频以及人工评分条目之间的一致性。该数据集适用于生成模型评估、物理常识推理、视频质量评估等研究任务。

PhyGround is a benchmark dataset for evaluating the physical reasoning capabilities of generative world models. The dataset is constructed based on relevant research papers and aims to provide evaluation standards for the physical commonsense understanding of image-to-video (I2V) and text-to-video (T2V) generative models. The core of the dataset consists of 250 carefully designed text prompts, each associated with specific physical laws that need to be adhered to. For each prompt, the dataset provides a first image, serving as the initial condition frame for I2V models. Based on these prompts and first images, the dataset includes videos generated by 8 different advanced video generation models (with a total of 10 generation configurations), amounting to 2,500 video files. Additionally, the dataset offers large-scale human annotation results, involving 352 annotators who scored the generated videos. The scoring is conducted from two dimensions: general quality (including continuity, prompt-video alignment, and scene plausibility) and physical plausibility (for each physical law declared in the prompt) on a scale of 1-4, and physical laws not applicable to the current video clip are annotated. The dataset files are linked through a unified `id_stem` field, ensuring consistency among prompts, first images, videos generated by various models, and human rating entries. This dataset is suitable for research tasks such as generative model evaluation, physical commonsense reasoning, and video quality assessment.

创建时间：

2026-05-09

搜集汇总

数据集介绍

构建方式

PhyGround的构建过程体现了严谨的基准测试设计理念，旨在评估视频生成模型在物理推理方面的能力。该数据集精心收集了250条提示文本，每一条都配备了预期的物理结果，并构建了一个包含13项物理定律的分类体系，涵盖刚体力学、流体动力学和光学三大物理域。所有数据以JSON数组形式存储于prompts/phyground.json文件中，每个条目均包含唯一标识符、提示文本、相关物理定律列表及共享文件名标识符，方便后续索引与匹配。

特点

该数据集的核心特色在于其基于标准的物理推理评估框架。通过为每一条提示关联明确的物理定律，PhyGround能够系统性地检验生成视频是否遵循预期的物理规则。数据集不仅提供了文本提示，还包含了250张首帧图像作为图像到视频模型的条件输入，并收录了10种不同配置模型（如Cosmos、LTX、Wan等）生成的共计2500个视频，同时配有352位标注者的人工评分数据，支持对物理忠实度、持续性和时序一致性等多维度的精细评估。

使用方法

使用PhyGround时，可通过Hugging Face CLI便捷地下载提示JSON文件和首帧图像集。数据组织清晰：prompts目录包含核心提示与物理定律信息，first_images目录提供图像到视频模型的条件帧，videos目录按模型分类存放生成视频，annotations目录则保存了每位标注者的评分详情。用户可通过id_stem字段在提示条目、首帧图像和各类模型生成视频之间建立精确映射，从而灵活地对视频生成模型进行物理推理能力的横向对比与分析。

背景与挑战

背景概述

物理世界理解是生成式模型迈向通用人工智能的关键瓶颈之一，尽管视频生成模型在视觉保真度上取得了显著进展，但其对物理规律的遵循能力仍缺乏系统性评估。PhyGround数据集由东北大学世界模型与具身智能团队联合多位学者于2026年创建，旨在填补这一空白。该数据集包含250条精心设计的提示，每条提示均标注了期望的物理结果，并构建了涵盖刚体力学、流体动力学和光学三大类共13种物理定律的层级化分类体系。通过引入人类评分机制与多模型生成视频库，PhyGround为评估视频生成模型中的物理推理能力提供了标准化基准，对推动生成式世界模型向可信、可控方向发展具有重要影响力。

当前挑战

PhyGround数据集的核心挑战在于双重复杂性：首先，视频生成模型常常违背基本物理定律，如刚体碰撞中的动量守恒、流体中的连续介质行为或折射定律，现有模型在精细物理推理上表现脆弱，亟需高质量基准来诊断模型缺陷并引导改进方向。其次，数据构建过程面临多重难题，包括如何将抽象的物理定律转化为具体、可验证的视频提示，如何确保250条提示覆盖13种物理规律的多样性与平衡性，以及如何设计一致的人类标注协议，使352位标注员对物理合理性的4级评分保持高置信度，这些都给数据集的可扩展性与可靠性带来了严峻考验。

常用场景

经典使用场景

在视频生成与物理推理的交叉领域，PhyGround 数据集被广泛用于评估生成式世界模型对物理规律的遵循程度。该数据集精心构建了250条提示词，每条提示词均明确标注了预期物理结果，并覆盖了刚体力学、流体动力学与光学三大领域的13种物理法则。研究者通常利用PhyGround作为标准测试床，通过对比生成视频与预期物理结果的一致性，量化模型在不同物理场景下的表现，从而推动视频生成技术从视觉逼真向物理合理性的深度演进。

解决学术问题

PhyGround 针对当前视频生成模型普遍忽视物理真实性的学术困境，系统性地解决了缺乏统一物理基准的难题。传统评估指标多聚焦于视觉效果的一致性，而忽略了物体交互中的因果与物理约束。该数据集通过结构化标注物理法则，使研究者能够定量分析模型在碰撞、流体运动、光影折射等场景中的失效模式。其意义在于为物理推理能力的评估提供了可复现、细粒度的评价体系，推动了生成模型从“看起来真实”向“物理上可信”的范式转变。

衍生相关工作

PhyGround 的出现催生了一系列衍生研究，包括基于物理法则的提示词增强方法、面向物理一致性的对抗训练框架以及多模态物理推理模型的微调策略。例如，研究者借鉴其物理法则分类体系，开发了可引导生成过程遵守特定物理约束的控制模块；另有工作利用该数据集的标注对现有模型进行诊断，进而提出物理知识蒸馏方案，将物理先验融入隐空间表征。这些衍生工作不仅深化了对生成模型物理能力边界的理解，也拓展了物理推理在视频生成领域的应用版图。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集