WBENCH

Name: WBENCH
Creator: 复旦大学; 美团·龙猫团队
Published: 2026-05-25 22:01:31
License: 暂无描述

arXiv2026-05-25 更新2026-05-27 收录

下载链接：

https://github.com/meituan-longcat/WBench

下载链接

链接失效反馈

官方服务：

资源简介：

WBENCH是由复旦大学与美团·龙猫团队联合创建的一个综合性多轮交互视频世界模型评估基准数据集。该数据集包含289个精心设计的测试案例，共计1058个交互轮次，覆盖了自然、城市、幻想等多种开放域场景，以及写实、卡通等多种渲染风格，并同时支持第一人称和第三人称视角。其构建过程通过定义包含场景、风格、视角和主体的世界设置，并组合导航、主体动作、事件编辑和视角切换四类交互序列来完成。该数据集旨在为交互式视频世界模型提供一个统一的、系统性的评估框架，以全面衡量模型在视频质量、设置遵循、交互遵循、一致性和物理合规性等五个维度的能力，从而推动该领域的发展。

WBENCH is a comprehensive multi-turn interactive video world model evaluation benchmark dataset jointly created by Fudan University and Meituan Longmao Team. This dataset includes 289 well-designed test cases, totaling 1058 interaction turns, covering various open-domain scenarios such as natural, urban and fantasy, multiple rendering styles including realistic and cartoon, and supports both first-person and third-person perspectives. Its construction pipeline is completed by defining world settings encompassing scenarios, styles, perspectives and agents, and combining four types of interaction sequences: navigation, agent actions, event editing and perspective switching. This dataset aims to provide a unified and systematic evaluation framework for interactive video world models, to comprehensively evaluate the model's capabilities across five dimensions: video quality, setting compliance, interaction compliance, consistency and physical plausibility, thereby promoting the development of this field.

提供机构：

复旦大学; 美团·龙猫团队

创建时间：

2026-05-25

原始信息汇总

WBench 数据集概述

WBench 是一个用于评估交互式视频世界模型的综合性多轮基准测试数据集。

数据集规模与多样性

用例数量: 289 个
交互轮次: 1,058 次
交互类型: 覆盖 4 种类型，包括导航、主体动作、事件编辑、视角切换，并包含多样的场景和视角。
模型评估: 对 20 个视频世界模型进行了系统性诊断。

核心贡献

统一导航协议: 桥接了文本、6 自由度相机位姿和离散动作接口，支持不同模型家族间的公平比较。
全面评估指标: 提出了 22 个自动化指标，涵盖 5 个互补维度，并经过人工验证，确保可靠的大规模自动评估。

评估维度与指标

数据集从以下 5 个维度对模型进行评估：

质量 (Quality)
设定 (Setting)
交互 (Interaction)
一致性 (Consistency)
物理 (Physical)

详细指标（共 22 个）包括但不限于：美学质量、成像质量、场景一致性、导航轨迹、空间一致性、几何一致性、因果保真度等。

排行榜

导航任务排行榜: 列出了 20 个模型在 5 个维度上的综合表现（按平均分排序）。前三名分别为：Kling 3.0 (79.2 分)、LingBot-World (78.8 分)、Wan 2.7 (78.5 分)。
文本驱动模型完整排行榜: 针对 9 个文本驱动模型，在包含所有 4 种交互类型的完整任务上进行评估。前三名分别为：Kling 3.0 (79.5 分)、Wan 2.7 (78.2 分)、Seedance 1.5 (76.2 分)。

相关链接

项目主页：https://meituan-longcat.github.io/WBench/
论文：https://arxiv.org/abs/2605.25874
数据集：https://huggingface.co/datasets/meituan-longcat/WBench
模型权重：https://huggingface.co/meituan-longcat/WBench-weights
排行榜：https://meituan-longcat.github.io/WBench/#leaderboard

搜集汇总

数据集介绍

构建方式

WBENCH数据集以世界设定与多轮交互序列为核心，采用设定优先的构建原则。首先由标注者为每个测试案例设计世界设定，涵盖场景、风格、视角与主体四个属性，并据此生成高质量的初始帧。随后，在设定约束下推导出物理可行且语义连贯的四类交互序列，包括导航、主体动作、事件编辑与视角切换。通过分层采样策略确保场景、风格、视角、主体及交互类型的多样化覆盖，所有案例均经过人工审核以保证提示与帧的一致性及轮次之间的连贯性。

特点

WBENCH数据集最显著的特点在于其全面性与统一性。它整合了五大互补评估维度，即视频质量、设定遵循度、交互遵循度、一致性与物理合规性，并通过22项细粒度自动子指标进行量化。数据集包含289个测试案例与1058个交互轮次，覆盖开放世界场景、多样渲染风格、多种主体类别以及第一人称与第三人称双视角。更为关键的是，其创新的统一导航控制接口将文本、六自由度姿态与离散动作指令对齐，使得不同控制范式的模型能够在公平条件下进行跨范式比较。

使用方法

使用WBENCH时，每个测试案例以世界设定和初始图像作为模型输入，随后模型需根据指定的多轮交互指令序列逐轮生成视频片段。评估过程采用双轨协议：所有20个模型在共享的158个导航子集上进行比较，而文本驱动的图像到视频模型则进一步在完整的289个案例及1058个交互轮次上接受全面测试。评估工具利用22项结合专家视觉模型与大型多模态模型的自动子指标，涵盖视频质量、设定遵循、交互遵循、一致性与物理合规五大维度，所有指标均已通过人工判断验证其可靠性。

背景与挑战

背景概述

WBENCH数据集由复旦大学与美团Longcat团队于2026年联合创建，旨在填补交互式视频世界模型缺乏统一系统评估标准的空白。随着视频生成技术从传统的视觉质量评估迈向交互式世界模拟，现有基准仅覆盖部分能力维度，无法全面衡量模型在视频质量、场景遵循、交互遵循、一致性与物理合规性这五大维度的表现。该研究团队设计了包含289个测试案例与1,058次交互回合的基准，覆盖多样化的场景、风格、主体与视角，并整合了导航、主体动作、事件编辑与视角切换四种交互类型。通过对20个前沿模型的评估，WBENCH揭示了当前尚无模型能在所有维度上取得领先，为交互式世界模型的诊断与发展提供了关键洞察与标准化评测框架。

当前挑战

该领域面临的首要挑战在于如何构建一个能够统一评估交互式世界模型多维能力的基准，既要涵盖开放域场景、双视角与四种交互类型，又要支持不同控制范式下的公平比较。WBENCH在构建中需解决两大难点：一是世界设置与多轮交互序列的因果连贯性设计，确保每个案例的交互在物理上与语义上可执行；二是导航控制的多模态统一表述，需将文本、6自由度位姿与离散动作映射到同一评估协议下。此外，自动化评估需融合22项精细子指标，涵盖专业视觉模型与大型多模态模型，且所有指标需通过人类判断验证，这要求在指标设计上平衡效率与信度。实验还发现，导航能力与其他维度几乎解耦，视角控制不等于主体控制，物理正确性更多继承自生成先验而非控制能力，这些现象为模型诊断与改进带来了深层挑战。

常用场景

经典使用场景

在交互式世界模型研究领域，WBENCH被设计为一项多轮交互基准测试，用于全面评估视频世界模型在五个关键维度上的表现：视频质量、设定一致性、交互遵循度、时间一致性和物理合理性。其经典使用场景包括系统性地测试模型在执行导航、主体动作、事件编辑和视角切换等多样交互时的能力，尤其关注从初始图像出发的多轮闭环演化过程。研究者利用该基准评估模型在开放域场景中维持空间参考框架和主体身份稳定的能力，从而揭示不同模型在渲染、控制和记忆等方面的结构性优劣。

衍生相关工作

WBENCH的提出激发了多项在交互式世界模型评估领域的后续工作。其统一的导航控制接口和双轨评估协议直接继承了WorldScore、WorldModelBench和MIND等早期基准的设计理念，同时填补了它们在视角多样性、交互类型覆盖和多轮闭环评估方面的空白。受WBENCH诊断性分析启发，后续研究如Omni-WorldBench扩展了因果交互的评估范围，WorldMark引入了WASD风格的动作映射层以实现跨范式比较，而WorldLens则在自动驾驶领域细化了空间一致性的度量方法。该基准的多维故障分析框架也催生了针对物理常识和长程记忆的专项评估工作，推动了世界模型评估体系从碎片化走向系统化。

数据集最近研究