WorldReasonBench
收藏WorldReasonBench 数据集概述
WorldReasonBench 是一个用于评估视频生成模型作为“未来世界状态预测器”推理能力的基准测试集。它将视频生成评估重新定义为世界状态预测任务:给定初始状态和一个动作,模型能否生成一个在物理、社会、逻辑和信息层面保持一致的未来视频。
核心规模
| 指标 | 数值 |
|---|---|
| 测试用例 | 436 个 |
| 推理维度 | 4 个 |
| 子类别 | 22 个 |
| 评估模型 | 11 个 |
| 偏好对 | 6,000+ 对(专家标注) |
| 标注人员 | 15 位 |
推理维度与子类别
数据集涵盖四大推理维度:
- World Knowledge (世界知识)
- Human-Centric (人类中心)
- Logic Reasoning (逻辑推理)
- Information-Based (信息基础)
评估方法论
评估体系包含两个互补部分:
- Process-aware Reasoning Verification (过程感知推理验证):通过分阶段的质量评估(Acc<sub>QA</sub>)和动态阶段惩罚,得到 Score<sub>PR</sub> 分数。计算公式:Score<sub>PR</sub> = Acc<sub>QA</sub><sup>0.8</sup> · s<sub>dyn</sub><sup>0.2</sup>。
- Multi-dimensional Quality Assessment (多维度质量评估):从推理质量 (s<sub>r</sub>)、时间一致性 (s<sub>c</sub>) 和视觉美学 (s<sub>a</sub>) 三个维度对视频评分。计算公式:S(v) = 0.4 · s<sub>r</sub> + 0.3 · s<sub>c</sub> + 0.3 · s<sub>a</sub>。
主要排行榜结果(Score<sub>PR</sub>)
闭源模型:
| 排名 | 模型 | 总体 (%) | 世界知识 | 人类中心 | 逻辑推理 | 信息基础 |
|---|---|---|---|---|---|---|
| 1 | Seedance2.0 | 39.8 | 43.2 | 35.9 | 31.7 | 47.6 |
| 2 | Veo3.1-Fast | 35.3 | 55.0 | 35.1 | 25.7 | 28.6 |
| 3 | Sora2 | 34.3 | 36.9 | 44.7 | 25.9 | 37.3 |
| 4 | Kling | 32.7 | 42.2 | 32.5 | 22.4 | 35.7 |
| 5 | Wan2.6 | 32.4 | 35.2 | 34.5 | 26.2 | 35.5 |
开源模型:
| 排名 | 模型 | 总体 (%) | 世界知识 | 人类中心 | 逻辑推理 | 信息基础 |
|---|---|---|---|---|---|---|
| 6 | HunyuanVideo-1.5 | 17.9 | 21.6 | 8.1 | 12.7 | 24.2 |
| 7 | Wan2.2-14B | 17.5 | 22.9 | 14.5 | 16.4 | 15.0 |
| 8 | LongCat-Video | 17.4 | 13.3 | 22.8 | 12.6 | 22.8 |
| 9 | Cosmos-Predict2.5 | 16.9 | 15.2 | 22.2 | 7.1 | 24.7 |
| 10 | LTX2.3 | 16.8 | 15.6 | 19.3 | 11.9 | 22.7 |
| 11 | UniVideo | 14.4 | 13.8 | 15.8 | 11.2 | 17.3 |
奖励模型对齐性能(WorldRewardBench)
- WorldRewardBench 包含约 6K 对专家标注的偏好数据,用于奖励模型评估。
- 在整体表现上:
- 成对比较(含平局):Qwen3.5-27B Thinking 取得最佳成绩(67.74%)。
- 成对比较(不含平局):Qwen3.5-9B Thinking 取得最佳成绩(74.35%)。
- 点评估 Spearman ρ:Qwen3.5-9B Thinking 取得最高相关性(0.655)。
指标与人类排名的一致性
通过成对专家评估得到人类 Elo 排名,我们的自动 Score<sub>PR</sub> 在 11 个模型中对 8 个模型的排名偏差(|Δr|)≤ 1,优于通用 Qwen3.5-Thinking 评判器(偏差可达 4 个位置)。
数据目录结构
WorldReasonBench/ ├── assets/ │ ├── images/ # 论文图表 │ └── videos/ # 示例视频(4 类别 × 3 MP4) ├── data/ │ ├── with_prompts.json # 任务元数据与提示 │ ├── data_with_qa_gemini/ # QA 评估数据 │ └── statistics_model_pairs.json # 人类标注的偏好对(5,969 对) ├── evaluation/ │ ├── eval_qa.py # QA 评估管道 │ └── reward_bench/ # 奖励模型评估工具 ├── scripts/ # 运行示例脚本 └── requirements.txt
使用方式
- 安装依赖:
pip install -r requirements.txt - 启动 vLLM 服务器(以 Qwen3.5 为例)
- 准备视频数据:按照预期目录结构组织生成视频
- 运行 QA 推理验证:使用
evaluation/eval_qa.py评估视频是否包含预期推理元素 - 运行多维度质量评估:使用
reward_bench/run_pointwise_eval.py进行点评估,或使用run_pairwise_eval.py进行成对比较 - 计算指标:使用
compute_pairwise_accuracy.py计算成对准确率




