WorldScore
收藏arXiv2025-04-02 更新2025-04-07 收录
下载链接:
https://haoyi-duan.github.io/WorldScore/
下载链接
链接失效反馈官方服务:
资源简介:
WorldScore数据集是由斯坦福大学创建的高质量、多样化的基准数据集,包含3000个测试示例,覆盖了静态和动态、室内和室外、真实和风格化的多种世界。数据集旨在评估世界生成模型在多个场景生成、视觉风格、相机控制、三维一致性等方面的性能,适用于3D、4D、图像到视频、文本到视频等多种生成模型。
The WorldScore dataset is a high-quality, diverse benchmark dataset developed by Stanford University. It contains 3000 test instances covering diverse worlds spanning static and dynamic, indoor and outdoor, real and stylized scenarios. The dataset is designed to evaluate the performance of world generation models across multiple aspects including multi-scene generation, visual style, camera control, and 3D consistency, and is suitable for a wide range of generative models such as 3D, 4D, image-to-video, and text-to-video generative models.
提供机构:
斯坦福大学
创建时间:
2025-04-02
搜集汇总
数据集介绍

构建方式
WorldScore数据集的构建基于对世界生成任务的系统性分解,将其转化为一系列基于相机轨迹布局的下一场景生成任务。通过精心筛选3000个测试样本,涵盖静态与动态、室内与室外、写实与艺术风格等多样化场景,确保数据集的广泛覆盖性。构建过程中采用了严格的图像过滤策略,结合视觉语言模型生成场景描述,并通过文本到图像模型生成艺术风格变体,从而保证数据的高质量和多样性。
使用方法
使用WorldScore数据集时,研究者可通过标准化输入格式(当前场景图像、文本提示及相机轨迹)评估各类世界生成模型。输出统一为视频形式,便于跨模型比较。评估指标WorldScore整合了可控性、质量与动态性三大维度共10项子指标,用户可通过计算模型在测试集上的综合得分,系统分析其在布局遵循度、场景连贯性和运动准确性等方面的表现。数据集支持3D/4D场景生成、文生视频和图生视频等多种方法的统一评测。
背景与挑战
背景概述
WorldScore是由斯坦福大学的研究团队于2025年提出的首个面向世界生成任务的统一评估基准。该数据集通过将世界生成任务分解为基于显式相机轨迹布局规范的连续场景生成任务,实现了对3D/4D场景生成与视频生成模型的跨范式统一评估。数据集包含3000个涵盖静态/动态、室内/室外、写实/风格化场景的测试样本,通过可控性、质量和动态性三个核心维度构建了包含10项指标的评估体系。作为计算机视觉与图形学交叉领域的重要基础设施,WorldScore首次系统解决了多场景连贯生成任务的评估标准缺失问题,为娱乐、教育仿真和具身智能等应用场景提供了关键的技术验证平台。
当前挑战
WorldScore针对世界生成领域的两大核心挑战提出了解决方案:在领域问题层面,传统评估基准仅关注单场景视频生成,无法评估多场景连贯性与空间布局控制能力,WorldScore通过相机轨迹规范与场景序列分解机制解决了这一评估盲区;在构建层面,研究团队面临高质量多样化场景数据采集、跨模态评估标准统一、动态场景运动准确性量化等挑战,通过混合真实数据与生成数据、设计基于SLAM的几何一致性指标、引入光学流分析等技术手段实现了科学严谨的评估体系。此外,基准测试揭示了当前模型在长序列生成、室外场景建模和动态控制等方面的共性瓶颈。
常用场景
经典使用场景
WorldScore数据集作为首个统一的世界生成评估基准,广泛应用于3D、4D场景生成及视频生成模型的性能评估。其经典使用场景包括静态与动态世界的多场景序列生成任务,涵盖室内外环境及多种视觉风格。通过基于相机轨迹的布局规范,WorldScore能够系统评估模型在可控性、质量和动态表现三个关键维度的综合能力。
解决学术问题
WorldScore解决了世界生成领域缺乏统一评估标准的学术难题。通过分解世界生成为连续的下一个场景生成任务,该数据集为3D/4D场景生成与视频生成模型提供了跨方法可比性。其核心贡献在于量化了模型对布局控制的遵循程度(如相机轨迹精度)、生成内容的语义一致性(如物体出现率)以及动态运动的合理性(如光学流稳定性),填补了现有基准在空间布局控制和多场景连贯性评估上的空白。
实际应用
在影视预可视化、虚拟现实环境构建和自动驾驶仿真等实际应用中,WorldScore的评估框架可直接指导系统优化。例如,其相机可控性指标能优化虚拟摄影的路径规划,动态运动准确性指标可提升物理模拟的真实性。数据集中3000个涵盖真实与风格化场景的测试样本,为游戏引擎、教育模拟等需要多样化场景生成的工业场景提供了标准化验证工具。
数据集最近研究
最新研究方向
近年来,WorldScore作为首个专注于世界生成任务的统一评估基准,在计算机视觉与生成模型领域引发了广泛关注。该数据集通过将复杂的世界生成任务分解为基于相机轨迹的序列化场景生成,创新性地整合了3D/4D场景生成与视频生成模型的评估框架。其前沿研究主要集中在三个方向:一是探索多模态控制策略在动态场景生成中的应用,如结合文本、图像与精确相机参数的综合控制;二是研究跨风格(写实与艺术化)场景的连贯性保持技术,特别是在长序列生成中的几何一致性难题;三是开发新型评估指标以衡量生成世界的物理合理性,如刚体运动与流体运动的动力学仿真精度。该数据集通过系统评估19种主流模型,揭示了3D生成模型在静态场景的几何稳定性优势与视频模型在动态表现上的潜力,为元宇宙构建、虚拟现实等应用提供了关键技术支持。
相关研究论文
- 1WorldScore: A Unified Evaluation Benchmark for World Generation斯坦福大学 · 2025年
以上内容由遇见数据集搜集并总结生成



