PhyGenBench

Name: PhyGenBench
Creator: 上海交通大学, 上海人工智能实验室, 香港大学, 香港中文大学
Published: 2024-10-08 01:56:04
License: 暂无描述

arXiv2024-10-08 更新2024-10-11 收录

下载链接：

https://github.com/OpenGVLab/PhyGenBench

下载链接

链接失效反馈

官方服务：

资源简介：

PhyGenBench是由上海交通大学、上海人工智能实验室、香港大学和香港中文大学的研究团队创建的一个综合物理生成基准数据集，旨在评估文本到视频生成模型在物理常识方面的正确性。该数据集包含160个精心设计的提示，涵盖27个不同的物理定律，跨越四个基本领域，全面评估模型对物理常识的理解。数据集的创建过程包括从基础物理定律出发，通过头脑风暴和参考教科书等方式构建反映物理定律的提示，确保每个提示都能清晰地反映物理现象。PhyGenBench主要应用于评估和提升文本到视频生成模型在物理常识方面的表现，旨在解决当前模型在生成符合物理常识的视频方面的不足。

PhyGenBench is a comprehensive physical generation benchmark dataset developed by research teams from Shanghai Jiao Tong University, Shanghai AI Laboratory, The University of Hong Kong, and The Chinese University of Hong Kong. It is designed to evaluate the physical common sense validity of text-to-video generation models. This dataset includes 160 meticulously crafted prompts spanning 27 distinct physical laws across four core domains, enabling a comprehensive assessment of models' understanding of physical common sense. The construction process of PhyGenBench begins with foundational physical laws, where prompts reflecting corresponding physical phenomena are generated via brainstorming and reference to textbooks, ensuring each prompt clearly demonstrates a specific physical phenomenon. PhyGenBench is primarily applied to evaluate and enhance the performance of text-to-video generation models in terms of physical common sense, with the goal of addressing the current limitations of existing models in generating videos that align with physical common sense.

提供机构：

上海交通大学, 上海人工智能实验室, 香港大学, 香港中文大学

创建时间：

2024-10-08

原始信息汇总

PhyGenBench 数据集概述

数据集简介

PhyGenBench 是一个综合的物理生成基准，旨在评估视频生成中的物理常识正确性。该基准包含160个精心设计的提示，涵盖27个不同的物理定律，跨越四个基本领域，全面评估模型对物理常识的理解。

数据集组成

测试提示：包含在 prompts.json 文件中。
示例问题：包含在 single_question.json、multi_question.json 和 video_question.json 文件中，分别对应 PhyGenEval 中的三个不同阶段。
视频测试：包含在 PhyVideos 文件夹中，用户需根据 prompts.json 生成视频并放置在此文件夹中。

评估框架

PhyGenEval 是一个新颖的评估框架，采用分层评估结构，利用先进的视觉-语言模型和大型语言模型来评估物理常识。评估过程分为三个阶段：

关键物理现象检测
物理顺序验证
整体自然性评估

排行榜

PhyGenBench 提供了一个排行榜，展示了不同模型在物理常识生成任务中的表现。排行榜包括以下模型：

CogVideoX
Open-Sora V1.2
Lavie
Vchitect 2.0
Pika
Gen-3
Kling

快速开始

文件结构

PhyGenBench：包含测试提示和示例问题。
PhyGenEval：包含语义评估方法和三阶段物理常识评估方法的代码。
result：包含 Kling 在 PhyGenBench 上的评估结果。
PhyVideos：包含待测试的视频。

环境配置

使用 GPT-4o 或开源模型进行评估，需配置 VQAScore 环境。
使用开源模型进行评估，需配置 VQAScore、LLava-Interleave 和 InternVideo2 环境，并下载相应模型。

问题生成

生成单阶段问题：python PhyGenEval/single/generate_question.py
生成多阶段问题：python PhyGenEval/multi/generate_question.py
生成视频阶段问题：python PhyGenEval/video/generate_question.py

三阶段评估

关键物理现象检测：python PhyGenEval/single/vqascore.py
物理顺序验证：
- 检索关键帧：python PhyGenEval/multi/multiimage_clip.py
- 多图像问答：python PhyGenEval/multi/GPT4o.py 或 python PhyGenEval/multi/LLaVA-NeXT-interleave_inference/llava/eval/model_vqa_multi.py
整体自然性评估：
- 使用 GPT-4o：python PhyGenEval/video/GPT4o.py
- 使用 InternVideo2：python PhyGenEval/video/MTScore/InternVideo_physical.py

总体评分计算

python PhyGenEval/overall.py

联系方式

如有任何问题，请联系 Fanqing Meng (mengfanqing33@gmail.com)。

搜集汇总

数据集介绍

构建方式

PhyGenBench的构建基于对物理常识的深入理解，涵盖了27种不同的物理定律，跨越四个基本领域：力学、光学、热学和材料属性。通过精心设计的160个提示，每个提示都旨在清晰地反映一个特定的物理现象。构建过程始于对基础物理定律的识别，随后通过头脑风暴和参考教科书等资源，设计出能够简洁反映物理定律的提示。这一过程确保了提示的全面性和清晰性，便于评估模型的物理常识理解能力。

使用方法

使用PhyGenBench时，研究者可以通过生成与提示相对应的视频，然后利用PhyGenEval框架进行评估。PhyGenEval采用分层评估结构，结合先进的视觉语言模型和大型语言模型，评估视频中的物理常识正确性。通过这种自动化评估，可以大规模地测试模型对物理常识的理解，结果与人类反馈高度一致。此外，PhyGenBench的提示设计简洁，便于模型生成高质量视频，从而更准确地评估物理常识的正确性。

背景与挑战

背景概述

PhyGenBench，一个综合的物理生成基准，由上海交通大学、上海人工智能实验室和香港大学等机构的研究人员共同开发。该数据集旨在评估文本到视频（T2V）生成模型在物理常识方面的正确性，特别是在理解直观物理学的能力上。PhyGenBench包含了160个精心设计的提示，涵盖27个不同的物理定律，跨越四个基本领域，能够全面评估模型对物理常识的理解。该数据集的开发标志着在构建通用世界模拟器方面迈出了重要一步，尤其是在视频生成领域，其影响力不容忽视。

当前挑战

PhyGenBench面临的挑战主要集中在两个方面：首先，缺乏专注于评估物理常识的基准，这要求选择语义简单且物理现象清晰的物理现象，以便人类或机器能够准确评估。其次，缺乏相应的评估指标，传统的指标如FVD在检测不合理的运动方面存在局限性，且需要参考视频，这在处理新颖场景时往往难以获取。此外，现有的视频生成评估基准主要关注生成视频的各种质量（如运动平滑度、背景一致性）或空间关系，未能解决生成视频是否遵循基本物理定律的关键问题。因此，开发专门用于评估生成视频中物理常识的基准和评估方法仍然是一个关键且未被充分探索的前沿领域。

常用场景

经典使用场景

PhyGenBench 作为物理常识生成基准，主要用于评估文本到视频生成模型在物理常识方面的正确性。该数据集包含160个精心设计的提示，涵盖27种不同的物理定律，跨越四个基本领域，能够全面评估模型对物理常识的理解。通过PhyGenBench，研究者可以大规模自动化评估文本到视频模型对物理常识的理解，确保其生成的视频与人类反馈高度一致。

解决学术问题

PhyGenBench 解决了当前文本到视频生成模型在物理常识理解方面的不足。这些模型在生成视频时往往忽视基本的物理定律，导致生成的视频在物理常识上存在明显错误。PhyGenBench 通过提供详细的物理常识评估框架，帮助研究者识别和改进模型在物理常识生成方面的缺陷，从而推动模型向通用世界模拟器的目标迈进。

实际应用

PhyGenBench 在实际应用中具有广泛的前景，特别是在需要高度物理常识的视频生成领域，如视频游戏开发、虚拟现实和增强现实。通过使用PhyGenBench，开发者可以确保生成的虚拟环境符合物理定律，提升用户体验的真实感和沉浸感。此外，该数据集还可用于自动驾驶和机器人技术中，帮助模型理解和模拟物理环境，从而提高系统的安全性和可靠性。

数据集最近研究