WorldMark
收藏arXiv2026-04-23 更新2026-04-25 收录
下载链接:
https://alaya-studio.github.io/WorldMark/
下载链接
链接失效反馈官方服务:
资源简介:
WorldMark是由盛大AI研究院东京主导构建的首个交互式图像转视频世界模型标准化评测套件,包含50张参考图像生成的500个分层测试案例,涵盖第一/第三人称视角及写实/风格化场景。数据集通过WASD动作词汇统一映射层实现六种异构模型的控制指令标准化转换,包含20-60秒难度分级的动作序列,并集成视觉质量、控制对齐和世界一致性三维评估体系。该数据集旨在解决交互式视频生成模型因私有测试条件导致的跨模型可比性问题,为学术界提供公平的基准测试平台。
提供机构:
盛大AI研究院东京; 东京大学; 上海创新研究院
创建时间:
2026-04-23
原始信息汇总
数据集概述:WorldMark
WorldMark 是一个用于评估交互式视频世界模型的统一基准测试套件,旨在解决当前不同模型因采用专属场景、轨迹和评估协议而无法进行公平比较的问题。它提供了标准化的测试条件,使得对异构输入模型的比较成为可能。
核心贡献
- 统一动作映射层:将共享的WASD风格动作词汇翻译成每个模型的原生控制格式,实现在相同场景和轨迹下对六个主要模型进行公平比较。
- 分层测试套件:包含 500个评估用例,覆盖第一人称和第三人称视角、逼真和风格化场景,以及从简单(20秒)到困难(60秒)三个难度等级。
- 模块化评估工具包:提供对 视觉质量、控制对齐和世界一致性 的三维评估,研究人员可复用标准化输入,并自定义评估指标。
数据集构成
-
图像套件:
- 包含 50 张多样化的参考图像,涵盖 自然、城市、室内 三类场景,真实、风格化 两种风格,以及 第一人称、第三人称 两种视角。
- 风格化子集包括油画、浮世绘、赛博朋克和Minecraft美学。
- 交叉视角对共生成 100张测试图像。
-
动作套件:
- 包含 15 个标准化的动作序列,使用共享的 WASD移动 + 左右偏航旋转 词汇表达。
- 简单(20秒):5个基础单段动作(如前进、后退、向左平移)。
- 中等(40秒):5个两段组合动作(如来回移动、边走边转)。
- 困难(60秒):5个三段复杂轨迹(如巡逻、之字形移动)。
- 结合100张测试图像,共产生约 500个标准化评估用例。使用VLM进行场景感知过滤,确保动作的物理合理性。
评估维度与指标
- 视觉质量:通过美学质量(LAION预测器)和成像质量(MUSIQ)评估。
- 控制对齐:通过平移误差和旋转误差(基于DROID-SLAM重建的相机位姿)评估。
- 世界一致性:通过重投影误差(3D空间一致性)、状态一致性、内容一致性和风格一致性评估。
定量结果
该基准在 YUME 1.5, MatrixGame 2.0, HY-World, HY-Game, Oasis, Genie 3 六个主要模型上进行了评估,并给出了以下分类的详细指标表格:
- 第一人称-真实场景
- 第一人称-风格化场景
- 第三人称场景(仅 MatrixGame 2.0, HY-World, Genie 3 支持)
关键发现
- 视觉质量与世界一致性大多不相关:YUME 帧质量最高但世界缺乏全局连贯性,而 Genie 3 世界一致性最好但帧质量一般。
- 强控制对齐不意味着整体质量:HY-Game 指令跟随精确但视觉保真度差,Genie 3 轨迹误差较大但保持了全局连贯的世界。
- 第三人称生成暴露严重弱点:MatrixGame 的旋转误差在第三人称下增长了约20倍。
- 领域特化训练不具有迁移性:在Minecraft上训练的Open-Oasis在所有指标上都无法胜任真实和风格化场景。
搜集汇总
数据集介绍

构建方式
WorldMark 的构建以标准化交互式视频世界模型评估为核心目标。首先,研究团队从 WorldScore 数据集中精选 50 张多样化参考图像,涵盖自然、城市和室内场景,并通过图像生成模型为每张图像合成对应的第三人称视角,最终得到 100 张测试图像。其次,定义了一套由 WASD 移动和 L/R 偏航旋转构成的共享动作词汇,并设计 15 个复杂度递增的标准化动作序列,从单向平移、旋转到多段组合与循环轨迹。最后,针对六种主流模型(如 YUME、Genie 3 等)的异构控制接口,实现统一的动作映射适配层,将共享动作翻译为各模型的原生输入格式,从而确保所有模型在完全相同场景和动作指令下接受评估。
特点
WorldMark 的核心特点在于其首次为交互式图像到视频世界模型提供了公平比较的标准化测试条件。该基准包含 500 个评估用例,覆盖第一/第三人称视角、写实与风格化场景,以及简单(20 秒)、中等(40 秒)和困难(60 秒)三个难度层级。其评估工具包涵盖视觉质量、控制对齐和世界一致性三大维度,融合了轨迹误差、重投影误差等几何度量与基于视觉语言模型的语义评分。特别是,世界一致性评估同时利用几何重建和视觉语言模型判断,能够检测时间退化与空间稳定性问题。此外,所有测试输入(图像、动作序列)完全标准化,研究者可自由替换或扩展评估指标。
使用方法
使用 WorldMark 时,研究者首先从图像套件中选择目标视角、场景类型或视觉风格的参考图像,也可提供自定义图像并由视觉语言模型自动筛选合适的动作序列。随后,通过统一动作映射层将共享的 WASD 动作词汇转换为特定模型的原生控制格式。接着,在标准化条件下运行目标模型生成视频。最后,利用默认的八项度量工具包对生成视频进行评分,涉及视觉质量、控制对齐与世界一致性。由于所有模型接受完全相同的输入,简单度量即可揭示有意义的跨模型差异。该工具包采用模块化设计,用户可在不修改其他阶段的前提下,自由接入自定义或第三方评估指标。
背景与挑战
背景概述
WorldMark基准测试由Alaya Studio、东京大学及上海创新研究院的研究人员于2026年创建,旨在解决交互式视频世界模型评估碎片化这一核心问题。随着YUME、HY-World、Matrix-Game等模型通过异构控制接口快速演进,每款模型均在私有场景与轨迹上评估,导致公平的跨模型比较成为不可能。现有基准如VBench虽提供轨迹误差、美学评分及视觉语言模型评判等指标,却缺乏标准化测试条件——即统一的场景、动作序列及控制接口,使指标在不同输入格式的模型间无法直接对比。WorldMark通过提供首个统一竞技场,为六款主要模型在相同场景和轨迹上实现苹果对苹果的横向比较,对推动交互式世界建模领域的发展具有里程碑意义。
当前挑战
数据集应对的核心领域挑战在于:交互式世界建模需同时满足视觉质量、控制对齐与长时保持一致性,但现有模型在私有基准上的性能存在显著差异,如YUME 1.5在视觉质量上领先却缺乏世界逻辑连贯性,而Genie 3在一致性上最佳但帧级保真度中等。构建过程中面临的挑战包括:六款模型具有异构控制接口(如WASD文本提示、姿态参数、游戏手柄信号),需设计统一动作映射层进行语义等效转换;构建包含500个评估案例的分级测试套件需跨越第一/三人称视角、真实/风格化场景及20-60秒三种难度层级;同时需开发模块化评估工具包,整合视觉质量、控制对齐与世界一致性三大维度的八项指标,确保几何轨迹与视觉语言模型评判相互补充,并实现人类偏好排名与自动化评分间的高斯皮尔曼相关系数超过0.9。
常用场景
经典使用场景
在交互式视频世界模型领域,WorldMark作为首个标准化基准评测套件,其最经典的使用场景在于为异构控制接口的模型提供统一的评估竞技场。研究者将模型接入其统一动作映射层后,即可在完全相同的参考图像与动作序列上对YUME、HY-World、Matrix-Game、Genie等六类主流模型进行横向对比。通过涵盖第一/第三人称视角、真实/风格化场景以及20至60秒三段难度梯度的500个评测案例,该数据集系统性地评估了模型的视觉质量、控制对齐度与世界一致性,从而揭示不同模型在相同输入条件下输出质量的显著差异。
解决学术问题
WorldMark的核心学术贡献在于破解了交互式世界模型领域长期存在的‘评测孤岛’困境。此前,每款模型均使用私有场景与定制轨迹报告结果,导致跨模型性能比较几乎无法实现。该数据集通过构建标准化的场景库、动作序列库及统一控制接口,彻底消除了因测试条件不同而产生的评估偏差。其揭示的视觉质量与世界一致性间近乎无关联性的关键发现,以及第三人称视角场景下控制精度大幅下降这一显著失效模式,为学界提供了理解模型能力边界与设计优化方向的重要实证依据,推动了该领域评估体系从碎片化向标准化的重要范式转变。
衍生相关工作
WorldMark的诞生催生了一系列具有深远影响的相关工作。其统一动作映射层设计启发了多个后续研究团队开发适配器库,将更多新型交互模型纳入统一评测体系。基于该基准揭示的视觉质量与世界一致性弱相关现象,研究者开始探索解耦式评估框架,分别针对性优化美学表现与几何稳定性。此外,针对其发现的第三人称视角严重退化问题,多个学术团队已着手设计专门的视角增强模块与多尺度控制对齐损失函数。该数据集提供的标准化输入输出接口也被广泛应用于教学场景,成为培养新一代视频生成模型研究人才的经典实践平台。
以上内容由遇见数据集搜集并总结生成



