five

WORLDJEN Benchmark

收藏
arXiv2026-05-06 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/ik6626/WorldJen-benchmarking-subsystem
下载链接
链接失效反馈
官方服务:
资源简介:
WORLDJEN是由moonmath.ai团队构建的生成式视频模型多维评估基准,包含3,754条经过多维度筛选的人类创作提示词及420个生成视频样本。数据集通过对抗性设计的提示词同时评估16个质量维度,采用原生分辨率视频帧和Likert量表问卷进行VLM评分,显著降低了传统方法所需的视频生成数量。其核心价值在于通过人类偏好研究(2,696条标注)建立的三级Bradley-Terry评分体系,以及能精确复现人类判断的VLM评估引擎(Spearman ρ=1.000),为视频生成模型的物理合理性、语义一致性等复杂维度提供可解释的量化评估框架。
提供机构:
moonmath.ai
创建时间:
2026-05-05
搜集汇总
数据集介绍
main_image_url
构建方式
在视频生成模型的评估领域,传统指标如SSIM和PSNR侧重于像素保真度而忽略语义正确性,FVD则偏好分布纹理而非物理合理性。VBench 2.0等基于二元VQA的基准存在“是”偏差且分辨率不足。WORLDJEN Benchmark为此而生,其构建方式独辟蹊径:首先,从VidProM语料库中筛选出3,754条人类撰写的提示词,并通过LLM增强其在16个质量维度上的适用性与难度。随后,基于50条精选提示词,使用6款前沿视频模型生成共计300个视频。核心评估环节由两部分构成:一是盲法人类偏好研究,累积2,696对成对标注以建立三层级的人类真实评分排序;二是以GPT-4o等VLM作为裁判,针对每个提示词与维度生成10个李克特量表问题,结合维度感知的帧采样策略(整体、采样或微观模式),对视频进行全分辨率评分。最终,通过Bradley-Terry模型估算模型胜率并生成1500为中心的评分排行榜。
使用方法
使用该基准数据集时,研究者应首先准备待评估的视频生成模型,并利用其提供的3,754条增强提示词生成视频。评价流程需遵循其两大核心方法:其一,若资源允许,可进行盲法人类偏好研究,对成对视频进行基于提示忠实度的“略好”、“明显更好”或“好得多”的三级置信度评判,以此建立基准排序;其二,更高效的方式是直接调用其VLM评估管线,为每个提示词与16个评估维度生成10个维度特定的李克特问题。评估时,VLM依据维度相关性采用不同的帧采样策略(如物理维度采用密集前缀微观模式)对视频进行全分辨率评分,并输出1-5分的评分。最终评分通过Bradley-Terry模型汇总为1500为中心的模型竞争力排行。数据集特别强调,不应直接依赖固定特征(如DINO或CLIP)或低分辨率预处理,而应遵循其标准流程以确保评估的真实性与区分度。
背景与挑战
背景概述
生成式视频模型的飞速发展,使得如何科学、可靠地评估其生成质量成为一项核心挑战。传统的参考指标如SSIM和PSNR侧重于像素级保真度,却无法捕捉语义正确性与物理合理性;而FVD等分布度量则倾向于奖励纹理相似性,忽略了潜在的逻辑谬误。为突破这一瓶颈,Karthik Inbasekar、Guy Rom与Omer Shlomovits所在的moonmath.ai团队于2026年提出了WORLDJEN Benchmark。该基准框架以人类偏好为核心锚点,通过一项涵盖2696次成对标注的盲审研究,确立了清晰的三级结构(顶尖、中等、底层)作为模型排序的黄金标准。WORLDJEN的问世,标志着视频生成模型评估从单一维度、二进制评判,向多维粒度、语义感知的范式转换,为相关领域的学术研究与应用落地提供了极具辨识力的准绳。
当前挑战
WORLDJEN所应对的挑战深远而多重。首先,在领域问题层面,现有基准如VBench因依赖于224×224像素的低分辨率特征提取和二元VQA机制,极易产生“是”偏误,无法细腻捕捉物理异常、主体漂移等细微时序失误,导致高分压缩与模型区分度丧失。其次,评估成本与可扩展性构成巨大瓶颈:VBench系列需要生成数千至六千余个视频方能完成一次评估,严重阻碍了模型的快速迭代研发。此外,在构建过程中,如何从近170万条原始提示中筛选并增强出能同时覆盖16个质量维度(如惯性一致性、物理力学、语义习从性)的极具挑战性的提示集合,以及如何设计出维度感知的帧采样策略(整体、样本、微模式)以在保证评价精度的同时控制计算开销,均是极为棘手的工程与科学难题。
常用场景
经典使用场景
在视频生成模型迅猛发展的当下,如何精准衡量生成视频的质量成为核心挑战。WORLDJEN Benchmark的经典使用场景在于,它提供了一套全面的、端到端的视频生成模型评估框架,能够同时对多个前沿模型进行多维度的质量排序。研究者通过该基准,可利用精心策划的50条提示词,驱动6个顶尖视频生成模型(如Veo 3.1 Fast、Kling v2.6 Pro等)生成视频,并经由视觉语言模型(VLM)或人类评审员,依据16个细粒度质量维度(涵盖运动稳定性、逻辑物理、指令遵循和美学质量)进行Likert量表评分,最终通过Bradley-Terry模型生成具有统计显著性的排行榜,实现了对模型能力的客观、可复现的量化比较。
解决学术问题
该基准直面了视频生成评估领域的几个关键学术痛点。它有效解决了传统指标如SSIM、PSNR因追求像素保真度而忽略语义正确性的问题,也克服了FVD偏向纹理而忽视物理合理性的局限。更重要的是,WORLDJEN通过引入Likert量表替代二进制VQA,缓解了“是-偏误”(yes-bias),并采用全分辨率视频帧处理和对抗性策划的提示词,同时测试多达16个质量维度,从而解决了低分辨率评估导致的时间伪影遗漏和单一维度测试成本高昂、结果不可靠的难题。其意义在于,首次通过VLM评判,以统计显著的方式复现了人类的三层分级排名,为自动化视频生成评估建立了可靠、高效且与人类偏好高度一致的新标准。
实际应用
在实际应用中,WORLDJEN Benchmark展现出强大的实用价值。开发者和研究机构可将其作为模型迭代的“试金石”,在训练过程中快速筛选不同检查点,或在模型发布前进行全面的质量审计。通过该基准,企业能够明确自身模型在物理合理性、人体保真度等关键商业维度上的短板,例如揭示了当前业界普遍存在的物理模拟能力不足(如惯性一致性、物理力学得分最低)这一关键瓶颈。此外,其低成本的VLM评估引擎和预测性人类对齐分数(PHAS)使得小样本快速排行成为可能,极大降低了评估门槛,从而加速了视频生成技术的商业化落地和优化进程。
数据集最近研究
最新研究方向
当前生成式视频模型评估领域的前沿研究正聚焦于构建多维度的、语义驱动的自动化基准体系,以克服传统像素级指标和二元视觉问答范式的固有缺陷。WORLDJEN Benchmark 作为这一方向的代表性工作,通过引入李克特量表式视觉语言模型(VLM)评估、对抗性精心设计的复杂提示词,以及基于 Bradley-Terry 模型的人类偏好对齐框架,在 16 个质量维度上实现了对 6 款顶尖视频模型的精准分层排名。该研究揭示了业界在物理合理性方面的普遍短板,并验证了 VLM 可以作为人类偏好的可靠代理,为视频生成模型的迭代优化提供了成本可控且结果可复现的评估工具。这一方法论上的突破不仅回应了 Goodhart 定律对衡量指标异化的警示,更为未来世界模型与交互式生成环境的评测铺平了道路。
相关研究论文
  • 1
    WorldJen: An End-to-End Multi-Dimensional Benchmark for Generative Video Modelsmoonmath.ai · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作