WorldReasonBench

github2026-05-12 更新2026-05-13 收录

下载链接：

https://github.com/UniX-AI-Lab/WorldReasonBench

下载链接

链接失效反馈

官方服务：

资源简介：

WorldReasonBench是一个基准数据集，用于测试视频生成器作为未来世界状态预测器的推理能力。它包含436个精心设计的测试案例，涵盖物理、社会、逻辑和信息四个推理维度和22个子类别，并提供了结构化的事实问答注释。该数据集将视频生成评估重新定义为世界状态预测，评估模型在给定初始状态和动作时是否能生成状态演化在物理、社会、逻辑和信息上保持一致的未来视频。

WorldReasonBench is a benchmark dataset dedicated to evaluating the reasoning capabilities of video generators as predictors of future world states. It contains 436 meticulously designed test cases, covering four reasoning dimensions including physics, society, logic, and information, along with 22 subcategories, and provides structured factual question-and-answer annotations. This dataset redefines video generation evaluation as world state prediction, assessing whether a model can generate future videos whose state evolution remains physically, socially, logically, and informationally consistent when given an initial state and an action.

创建时间：

2026-05-08

原始信息汇总

WorldReasonBench 数据集概述

WorldReasonBench 是一个用于评估视频生成模型作为“未来世界状态预测器”推理能力的基准测试集。它将视频生成评估重新定义为世界状态预测任务：给定初始状态和一个动作，模型能否生成一个在物理、社会、逻辑和信息层面保持一致的未来视频。

核心规模

指标	数值
测试用例	436 个
推理维度	4 个
子类别	22 个
评估模型	11 个
偏好对	6,000+ 对（专家标注）
标注人员	15 位

推理维度与子类别

数据集涵盖四大推理维度：

World Knowledge (世界知识)
Human-Centric (人类中心)
Logic Reasoning (逻辑推理)
Information-Based (信息基础)

评估方法论

评估体系包含两个互补部分：

Process-aware Reasoning Verification (过程感知推理验证)：通过分阶段的质量评估（AccQA）和动态阶段惩罚，得到 ScorePR 分数。计算公式：ScorePR = AccQA0.8 · sdyn0.2。
Multi-dimensional Quality Assessment (多维度质量评估)：从推理质量 (sr)、时间一致性 (sc) 和视觉美学 (sa) 三个维度对视频评分。计算公式：S(v) = 0.4 · sr + 0.3 · sc + 0.3 · sa。

主要排行榜结果（ScorePR）

闭源模型：

排名	模型	总体 (%)	世界知识	人类中心	逻辑推理	信息基础
1	Seedance2.0	39.8	43.2	35.9	31.7	47.6
2	Veo3.1-Fast	35.3	55.0	35.1	25.7	28.6
3	Sora2	34.3	36.9	44.7	25.9	37.3
4	Kling	32.7	42.2	32.5	22.4	35.7
5	Wan2.6	32.4	35.2	34.5	26.2	35.5

开源模型：

排名	模型	总体 (%)	世界知识	人类中心	逻辑推理	信息基础
6	HunyuanVideo-1.5	17.9	21.6	8.1	12.7	24.2
7	Wan2.2-14B	17.5	22.9	14.5	16.4	15.0
8	LongCat-Video	17.4	13.3	22.8	12.6	22.8
9	Cosmos-Predict2.5	16.9	15.2	22.2	7.1	24.7
10	LTX2.3	16.8	15.6	19.3	11.9	22.7
11	UniVideo	14.4	13.8	15.8	11.2	17.3

奖励模型对齐性能（WorldRewardBench）

WorldRewardBench 包含约 6K 对专家标注的偏好数据，用于奖励模型评估。
在整体表现上：
- 成对比较（含平局）：Qwen3.5-27B Thinking 取得最佳成绩（67.74%）。
- 成对比较（不含平局）：Qwen3.5-9B Thinking 取得最佳成绩（74.35%）。
- 点评估 Spearman ρ：Qwen3.5-9B Thinking 取得最高相关性（0.655）。

指标与人类排名的一致性

通过成对专家评估得到人类 Elo 排名，我们的自动 ScorePR 在 11 个模型中对 8 个模型的排名偏差（|Δr|）≤ 1，优于通用 Qwen3.5-Thinking 评判器（偏差可达 4 个位置）。

数据目录结构

WorldReasonBench/ ├── assets/ │ ├── images/ # 论文图表 │ └── videos/ # 示例视频（4 类别 × 3 MP4） ├── data/ │ ├── with_prompts.json # 任务元数据与提示 │ ├── data_with_qa_gemini/ # QA 评估数据 │ └── statistics_model_pairs.json # 人类标注的偏好对（5,969 对） ├── evaluation/ │ ├── eval_qa.py # QA 评估管道 │ └── reward_bench/ # 奖励模型评估工具 ├── scripts/ # 运行示例脚本 └── requirements.txt

使用方式

安装依赖：pip install -r requirements.txt
启动 vLLM 服务器（以 Qwen3.5 为例）
准备视频数据：按照预期目录结构组织生成视频
运行 QA 推理验证：使用 evaluation/eval_qa.py 评估视频是否包含预期推理元素
运行多维度质量评估：使用 reward_bench/run_pointwise_eval.py 进行点评估，或使用 run_pairwise_eval.py 进行成对比较
计算指标：使用 compute_pairwise_accuracy.py 计算成对准确率

搜集汇总

数据集介绍

构建方式

WorldReasonBench的构建采用了三阶段VLM辅助流水线。首先，基于涵盖物理、社会、逻辑与信息四个推理维度及22个子类别的分类体系，对436个精心设计的测试案例进行目标感知的描述生成。随后，通过推理感知的提示生成模块，为每个案例创建结构化的开放型与二值型问答对。最后，结合15名人类专家对1.4K视频在推理质量、时序一致性与视觉美学三个维度的细致评分，构建了包含约6K偏好对的WorldRewardBench，用于奖励模型的校准与评估。

特点

该数据集的核心特色在于将视频生成评估重新定义为世界状态预测任务，直接检验模型对物理、社会、逻辑与信息一致性的推理能力，而非仅关注视觉渲染质量。它提供了过程感知推理验证与多维质量评估两套互补评价体系，前者通过结构化问答诊断模型在推理阶段的成败，后者以加权公式综合衡量推理正确性、内容忠实度与视觉美学。实验表明，其自动评分Score_PR与人类排名高度一致，在11个模型中8个的排名偏差不超过1位，显著优于通用VLM裁判。

使用方法

使用WorldReasonBench时，用户需先按指定目录结构组织模型生成的视频数据。对于基于QA的推理验证，通过运行eval_qa.py脚本，第一阶段调用VLM回答关于视频的开放型问题，第二阶段由LLM评判答案正确性，输出Acc_QA与Score_PR等关键指标。对于多维质量评估，通过run_pointwise_eval.py逐视频打分，或通过run_pairwise_eval.py进行成对比较，最终结果由compute_pairwise_accuracy.py等脚本汇总。所有评估均支持断点续评，并需提前启动兼容OpenAI接口的VLM服务器（如Qwen3.5）。

背景与挑战

背景概述

世界推理基准（WorldReasonBench）由UniX AI Lab于2024年创建，旨在革新视频生成模型的评估范式。随着Seedance2.0、Veo3.1等商业系统的迅猛发展，视频生成器日益被视为潜在的世界模拟器，然而现有基准大多聚焦于视觉渲染质量，忽视了模型对物理、社会及逻辑因果关系的推理能力。该基准通过436个精心构建的测试案例，涵盖世界知识、人类中心、逻辑推理和信息基础四大推理维度及22个子类别，并引入了包含约6000对专家标注偏好的WorldRewardBench奖励基准。其创新性的过程感知评分机制（Score_PR）在11个生成器上的评估显示，自动评分与人类排序的秩差控制在1以内，显著优于传统通用评判器，为视频生成领域开辟了基于世界状态预测的新评估维度。

当前挑战

WorldReasonBench直面视频生成领域长期存在的核心挑战：模型能否真正理解世界演变规律而不仅是生成连贯像素。具体挑战包括：其一，物理常识的精确建模——模型需准确预测如多米诺连锁倒塌、铅笔在水中折射等基本物理现象，当前最优模型Seedance2.0在过程感知推理得分仅达39.8%，揭示现存系统对因果规则的掌握严重不足；其二，时空逻辑的一致性维持——生成视频需在数秒到数十秒内保持物体运动、光照变化、人物行为的内在一致性，测试中开源模型普遍得分低于18%，暴露出时序建模的脆弱性；其三，构建过程中面临标注可靠性难题，需协调15名专业标注者从推理质量、时序一致性和视觉美学三维度对1.4K视频进行细粒度评分，并通过分层抽样策略确保偏好评级的统计均衡。

常用场景

经典使用场景

WorldReasonBench重新定义了视频生成评估的范式，将传统视觉质量与美学评判转向对世界状态演变的因果推理能力检验。该数据集包含436个精心策划的测试案例，覆盖世界知识、人类中心、逻辑推理与信息基础四大推理维度及22个子类别，通过结构化问答对的形式，系统性地考察视频生成模型在给定初始状态与动作后，能否生成在物理、社会、逻辑与信息层面均保持一致的未来帧序列。研究者借助该基准，能够深入诊断模型在动态场景中的推理缺陷，揭示视觉上逼真但过程性推理失败的典型案例。

衍生相关工作

WorldReasonBench的发布催生了多个富有影响力的研究方向。其构建的三阶段VLM辅助标注流水线启发了后续研究者开发更为细粒度的推理测试集，如聚焦于常识物理的运动连贯性基准与面向社会交互的人类意图推理基准。该数据集提出的过程感知评分指标Score_PR被多篇后续工作采纳为标准评估协议，推动了视频生成评测体系从单一视觉质量向多维推理能力的全面升级。此外，基于WorldRewardBench的偏好对齐实验验证了开源模型Qwen3.5-Thinking在逻辑推理维度上超越闭源GPT-5.4的潜力，激励了社区对小型化奖励模型与高效对齐策略的深入探索。

数据集最近研究