WORLDJEN Benchmark

Name: WORLDJEN Benchmark
Creator: moonmath.ai
Published: 2026-05-06 12:45:21
License: 暂无描述

arXiv2026-05-06 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/ik6626/WorldJen-benchmarking-subsystem

下载链接

链接失效反馈

官方服务：

资源简介：

WORLDJEN是由moonmath.ai团队构建的生成式视频模型多维评估基准，包含3,754条经过多维度筛选的人类创作提示词及420个生成视频样本。数据集通过对抗性设计的提示词同时评估16个质量维度，采用原生分辨率视频帧和Likert量表问卷进行VLM评分，显著降低了传统方法所需的视频生成数量。其核心价值在于通过人类偏好研究（2,696条标注）建立的三级Bradley-Terry评分体系，以及能精确复现人类判断的VLM评估引擎（Spearman ρ=1.000），为视频生成模型的物理合理性、语义一致性等复杂维度提供可解释的量化评估框架。

提供机构：

moonmath.ai

创建时间：

2026-05-05

搜集汇总

数据集介绍

构建方式

在视频生成模型的评估领域，传统指标如SSIM和PSNR侧重于像素保真度而忽略语义正确性，FVD则偏好分布纹理而非物理合理性。VBench 2.0等基于二元VQA的基准存在“是”偏差且分辨率不足。WORLDJEN Benchmark为此而生，其构建方式独辟蹊径：首先，从VidProM语料库中筛选出3,754条人类撰写的提示词，并通过LLM增强其在16个质量维度上的适用性与难度。随后，基于50条精选提示词，使用6款前沿视频模型生成共计300个视频。核心评估环节由两部分构成：一是盲法人类偏好研究，累积2,696对成对标注以建立三层级的人类真实评分排序；二是以GPT-4o等VLM作为裁判，针对每个提示词与维度生成10个李克特量表问题，结合维度感知的帧采样策略（整体、采样或微观模式），对视频进行全分辨率评分。最终，通过Bradley-Terry模型估算模型胜率并生成1500为中心的评分排行榜。

使用方法

使用该基准数据集时，研究者应首先准备待评估的视频生成模型，并利用其提供的3,754条增强提示词生成视频。评价流程需遵循其两大核心方法：其一，若资源允许，可进行盲法人类偏好研究，对成对视频进行基于提示忠实度的“略好”、“明显更好”或“好得多”的三级置信度评判，以此建立基准排序；其二，更高效的方式是直接调用其VLM评估管线，为每个提示词与16个评估维度生成10个维度特定的李克特问题。评估时，VLM依据维度相关性采用不同的帧采样策略（如物理维度采用密集前缀微观模式）对视频进行全分辨率评分，并输出1-5分的评分。最终评分通过Bradley-Terry模型汇总为1500为中心的模型竞争力排行。数据集特别强调，不应直接依赖固定特征（如DINO或CLIP）或低分辨率预处理，而应遵循其标准流程以确保评估的真实性与区分度。

背景与挑战

背景概述

生成式视频模型的飞速发展，使得如何科学、可靠地评估其生成质量成为一项核心挑战。传统的参考指标如SSIM和PSNR侧重于像素级保真度，却无法捕捉语义正确性与物理合理性；而FVD等分布度量则倾向于奖励纹理相似性，忽略了潜在的逻辑谬误。为突破这一瓶颈，Karthik Inbasekar、Guy Rom与Omer Shlomovits所在的moonmath.ai团队于2026年提出了WORLDJEN Benchmark。该基准框架以人类偏好为核心锚点，通过一项涵盖2696次成对标注的盲审研究，确立了清晰的三级结构（顶尖、中等、底层）作为模型排序的黄金标准。WORLDJEN的问世，标志着视频生成模型评估从单一维度、二进制评判，向多维粒度、语义感知的范式转换，为相关领域的学术研究与应用落地提供了极具辨识力的准绳。

当前挑战

WORLDJEN所应对的挑战深远而多重。首先，在领域问题层面，现有基准如VBench因依赖于224×224像素的低分辨率特征提取和二元VQA机制，极易产生“是”偏误，无法细腻捕捉物理异常、主体漂移等细微时序失误，导致高分压缩与模型区分度丧失。其次，评估成本与可扩展性构成巨大瓶颈：VBench系列需要生成数千至六千余个视频方能完成一次评估，严重阻碍了模型的快速迭代研发。此外，在构建过程中，如何从近170万条原始提示中筛选并增强出能同时覆盖16个质量维度（如惯性一致性、物理力学、语义习从性）的极具挑战性的提示集合，以及如何设计出维度感知的帧采样策略（整体、样本、微模式）以在保证评价精度的同时控制计算开销，均是极为棘手的工程与科学难题。

常用场景

经典使用场景

在视频生成模型迅猛发展的当下，如何精准衡量生成视频的质量成为核心挑战。WORLDJEN Benchmark的经典使用场景在于，它提供了一套全面的、端到端的视频生成模型评估框架，能够同时对多个前沿模型进行多维度的质量排序。研究者通过该基准，可利用精心策划的50条提示词，驱动6个顶尖视频生成模型（如Veo 3.1 Fast、Kling v2.6 Pro等）生成视频，并经由视觉语言模型（VLM）或人类评审员，依据16个细粒度质量维度（涵盖运动稳定性、逻辑物理、指令遵循和美学质量）进行Likert量表评分，最终通过Bradley-Terry模型生成具有统计显著性的排行榜，实现了对模型能力的客观、可复现的量化比较。

解决学术问题

该基准直面了视频生成评估领域的几个关键学术痛点。它有效解决了传统指标如SSIM、PSNR因追求像素保真度而忽略语义正确性的问题，也克服了FVD偏向纹理而忽视物理合理性的局限。更重要的是，WORLDJEN通过引入Likert量表替代二进制VQA，缓解了“是-偏误”（yes-bias），并采用全分辨率视频帧处理和对抗性策划的提示词，同时测试多达16个质量维度，从而解决了低分辨率评估导致的时间伪影遗漏和单一维度测试成本高昂、结果不可靠的难题。其意义在于，首次通过VLM评判，以统计显著的方式复现了人类的三层分级排名，为自动化视频生成评估建立了可靠、高效且与人类偏好高度一致的新标准。

实际应用

在实际应用中，WORLDJEN Benchmark展现出强大的实用价值。开发者和研究机构可将其作为模型迭代的“试金石”，在训练过程中快速筛选不同检查点，或在模型发布前进行全面的质量审计。通过该基准，企业能够明确自身模型在物理合理性、人体保真度等关键商业维度上的短板，例如揭示了当前业界普遍存在的物理模拟能力不足（如惯性一致性、物理力学得分最低）这一关键瓶颈。此外，其低成本的VLM评估引擎和预测性人类对齐分数（PHAS）使得小样本快速排行成为可能，极大降低了评估门槛，从而加速了视频生成技术的商业化落地和优化进程。

数据集最近研究