AV-Phys Bench

github2026-05-19 更新2026-05-20 收录

下载链接：

https://github.com/ZijunCui02/AV-Phys

下载链接

链接失效反馈

官方服务：

资源简介：

AV-Phys Bench是首个用于评估联合音频-视频生成中物理常识的综合基准。它测试了模型在场景随时间演变时如何保持物理常识，涵盖三个场景类别：C1稳态、C2事件转换和C3环境转换。每个类别还包括一个故意违反物理原理的Anti-AV-Physics子类别。数据集包含提示、每提示的评分标准、七个模型生成的视频以及人类评分。

创建时间：

2026-05-14

原始信息汇总

数据集概述：AV-Phys Bench

AV-Phys Bench 是一个用于评估联合音视频生成模型中物理常识能力的综合性基准。其核心目标是测试模型在场景随时间演变过程中，是否能够保持物理常识的一致性。

核心特性

任务类型：物理常识评估基准
数据模态：联合音视频（包含音频与视频内容）
场景类别：涵盖三种物理场景，共包含三个类别及一个反物理子类别：
- C1 稳态（Steady State）：声源、动作和环境均保持不变。
- C2 事件转换（Event Transition）：离散动作改变声源的物理状态。
- C3 环境转换（Environment Transition）：声源固定，声源与听者之间的传播路径发生变化。
反物理子类别（Anti-AV-Physics）：每个主要类别中均包含故意违反物理原理的样本，用于检测模型是真正具备物理知识，还是仅仅编码了物理上一致的先验。

数据规模与构成

数据来源：数据集包含一系列提示词、每个提示词对应的详细评估标准（rubrics）、来自七个生成模型的视频输出以及人工评分。
评估标准：对每个提示词，评估结果包含多个方面的得分：
- video_sa：视频感官一致性
- audio_sa：音频感官一致性
- video_pc：视频物理常识
- audio_pc：音频物理常识
- av_pc：音视频物理常识
- 综合得分：SA（感官一致性）、PC（物理常识）、Both（综合）

项目组件

组件	位置	说明
AV-Phys Bench 数据集	HuggingFace	包含提示词、评估标准、七个模型生成的视频以及人工评分
项目页面	zijuncui.com/AV-Phys	包含实时排行榜、视频画廊以及每个提示词的详细评估标准

使用方法

下载数据集： bash hugginface-cli download ZijunCui/AV-Phys-Bench --repo-type=dataset --local-dir data_release
运行评估：项目提供了多种评估器（如基于大型语言模型的评估器和AV-Phys Agent），可对生成视频进行打分。
评估自有模型：按指定格式放置生成的MP4视频文件，即可使用上述评估器进行评测。

相关资源

论文：arXiv:2605.07061
项目页面：https://zijuncui.com/AV-Phys/
数据集：HuggingFace

搜集汇总

数据集介绍

构建方式

在视听联合生成模型蓬勃发展的当下，物理常识的缺失成为制约其真实感的关键瓶颈。AV-Phys Bench作为首个针对联合音视频生成中物理常识评估的综合性基准，其构建方式颇具匠心。该数据集精心设计了涵盖三种核心场景类别的测试体系：稳态场景（C1，声源、动作与环境均保持不变）、事件过渡场景（C2，离散动作改变声源物理状态）、以及环境过渡场景（C3，声源固定，声源与听者间的传播路径发生变化）。尤为创新的是，每个类别均设有“反物理”子类别，刻意违背物理原理，以甄别模型是否真正理解物理规律。数据集包含了七种先进生成模型产生的视频样本，并配备了详尽的人工评分与自动化评估工具。

特点

该数据集的核心特色在于其多层次、多维度的评估架构。首先，它超越了对单模态内容的孤立考察，专注于音视频联合生成中的时空一致性，评估模型在时间演进过程中对物理世界的理解程度。其次，通过引入“反物理”子类别，数据集能够有效探测模型是真正内化了物理知识，还是仅仅复制了数据集中的统计偏差。此外，数据集提供了全面的评分体系，包括独立的视频与音频感官评估、物理常识评估及其联合评估，从多个角度揭示生成模型的物理常识掌握情况。完整的排行榜、逐提示视频画廊以及详细的评分标准均公开可查，为领域研究提供了透明且可复现的基准。

使用方法

研究者可通过Hugging Face平台便捷地获取完整数据集，包括测试提示、评分标准以及七组预生成视频。使用前需安装评估器依赖并配置Google AI Studio密钥。评估流程高度自动化，支持运行多模态大模型评判基线与AV-Phys代理评估器，通过简单命令即可对已有视频进行评判，输出包含各评分维度详尽结果的JSON文件。尤为重要的是，该框架支持研究者评测自定义模型，只需将生成的MP4视频按指定目录结构放置，即可复用任一评估器进行性能测评，极大地方便了新模型在物理常识维度的横向对比与迭代优化。

背景与挑战

背景概述

随着多模态生成模型的迅猛发展，联合音频-视频生成技术已逐渐成为人工智能领域的研究热点。然而，现有模型在生成内容时往往忽略物理常识，导致生成的音频与视频在时空一致性上存在显著漏洞。为系统评估这一能力缺陷，德克萨斯大学达拉斯分校、华盛顿大学与加州大学洛杉矶分校的研究人员于2026年联合发布了AV-Phys Bench基准数据集。该数据集聚焦于三大场景类别——稳态场景、事件过渡与环境过渡，并创新性地引入反物理子类别，以判别模型是否真正具备物理常识推理能力。通过七种生成模型、人类评委与智能体评估的对比分析，AV-Phys Bench为多模态生成领域的物理合理性研究提供了首个系统性评测框架，对推动生成模型向真实世界物理规则对齐具有里程碑意义。

当前挑战

当前联合音频-视频生成模型面临的核心挑战在于物理常识的建模与验证。首先，模型需在动态场景中精确维持声源、动作与环境间的物理一致性，例如音量随距离衰减或物体碰撞产生的合理音效，而现有生成方法常忽视此类因果关系。其次，数据集构建过程中面临三大困境：一为设计反物理案例需兼顾显著性与自然性，避免人为痕迹过重；二为多模态评估需统一音频与视频的物理规则标准，而人类感知存在主观差异；三为自动化评估器需具备跨模态推理能力，以替代昂贵的人工标注。这些挑战使得AV-Phys Bench不仅成为模型缺陷的探照灯，更对生成式AI的物理理解范式提出了深刻拷问。

常用场景

经典使用场景

AV-Phys Bench作为首个系统性评估联合音视频生成模型物理常识的基准，其经典使用场景聚焦于检验模型在动态场景演进中对物理规律的遵循能力。该基准精心设计了三大场景类别：稳态场景（C1）考察源物体、动作及环境均维持不变时视听一致性的维持；事件过渡（C2）检验离散动作引发的物理状态突变能否被准确表征；环境过渡（C3）则探析传播路径变化对声音感知的影响。每一类别均包含刻意违背物理原理的反物理子集，用以区分模型是否真正理解物理机制抑或仅依赖表面统计关联。研究者通过人类评估、多模态大模型评判及AV-Phys Agent三类评价体系，系统比对七种主流生成模型在物理常识保真度上的差异，为音视频生成领域的物理合理性评估提供了标准化范本。

实际应用

在实际应用层面，AV-Phys Bench为影视特效制作、虚拟现实内容生成及智能教育模拟等场景的质量把控提供了可量化的物理合理性标准。例如，在自动生成教学演示视频时，该基准可确保投掷物体伴随的落点声响与抛物线运动轨迹严格同步；在虚拟会议系统构建中，帮助验证说话者转身时声源方位变化的物理真实性。影视后期团队可借助其评估框架筛选出在声画物理一致性上表现最优的生成模型，避免产出诸如关门声早于门页闭合这类反直觉错误。此外，该数据集开发的自动评估管线允许开发者将物理常识分数直接集成到模型训练循环中，实现生成质量的即时反馈优化，从而加速高保真视听内容创作工具的商业化落地。

衍生相关工作

基于AV-Phys Bench的物理常识评估框架，衍生出多条活跃的研究脉络。其一，AV-Phys Agent作为自动化评估工具，启发了多模态智能体在视频审核领域的专业化改造，催生出能够逐帧分析声画物理关系的视听推理代理。其二，反物理子集的设计理念被延伸至触觉与运动模态，衍生出评估机器人视频生成任务中刚体碰撞物理准确性的新基准。其三，研究者利用该数据集的逐提示评判细则，构建了细粒度物理知识图谱，进而开发出可解释的物理常识注入方法，通过对比对抗样本的通过率来辨识模型的知识盲区。这些衍生工作共同推动了生成模型从单纯的模式拟合向具备可解释物理认知能力的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集