WorldArena

github2026-02-27 更新2026-02-28 收录

下载链接：

https://github.com/worldarena/WorldArena

下载链接

链接失效反馈

官方服务：

资源简介：

WorldArena是一个统一的基准测试，旨在系统地评估体现世界模型在感知和功能维度上的表现。它通过（1）视频感知质量，使用六个子维度的十六个指标进行测量；（2）体现任务功能，评估世界模型作为合成数据引擎、策略评估器和行动规划器的能力；（3）人类评估，包括整体质量、物理遵循、指令遵循和头对头胜率。此外，还提出了EWMScore，一个将多维性能整合为单个可解释指数的整体指标。这项工作为跟踪体现AI中真正功能性世界模型的进展提供了一个框架。

WorldArena is a unified benchmark designed to systematically evaluate the performance of embodied world models across perceptual and functional dimensions. It comprises three core evaluation components: (1) Video Perceptual Quality, measured using 16 metrics across six sub-dimensions; (2) Embodied Task Functionality, which assesses the capabilities of world models in three roles: synthetic data engines, policy evaluators, and action planners; and (3) Human Evaluation, covering overall quality, physics compliance, instruction following, and head-to-head win rate. Additionally, EWMScore is proposed as a holistic metric that integrates multi-dimensional performance into a single interpretable index. This work establishes a framework for tracking the progress of truly functional world models in embodied AI.

创建时间：

2026-02-01

原始信息汇总

WorldArena 数据集概述

数据集简介

WorldArena 是一个统一的基准测试，旨在系统性地评估具身世界模型在感知和功能两个维度上的性能。

核心评估维度

视频感知质量评估
- 通过六个子维度的十六个指标进行衡量。
- 具体实现请参考 video quality。
具身任务功能评估
- 将世界模型作为合成数据引擎、策略评估器和动作规划器进行评估。
- 具体实现请参考 embodied task。
人工评估
- 评估方面包括整体质量、物理规律遵循、指令遵循和头对头胜率。

综合评价指标

提出了 EWMScore，这是一个将多维度性能整合为单一可解释指数的整体性指标。

官方排行榜

官方排行榜托管在 HuggingFace 上：WorldArena Leaderboard。
该排行榜提供了跨视频感知质量、具身任务功能和统一 EWMScore 的标准化评估结果。

项目目标

提供一个框架，用于追踪具身人工智能领域向真正功能性世界模型发展的进展。

搜集汇总

数据集介绍

构建方式

在具身人工智能领域，对世界模型的评估长期缺乏统一标准，WorldArena基准的构建旨在填补这一空白。该数据集通过整合视频感知质量与具身任务功能两大维度，系统性地构建了评估框架。其构建过程首先定义了十六项指标，覆盖视频保真度、运动动态等六个子维度，以量化模型的感知能力。同时，数据集设计了将世界模型作为合成数据引擎、策略评估器和行动规划器的功能测试方案，并引入了人类评估环节，最终融合多维表现形成了统一的EWMScore指标，从而建立起一个全面且可解释的评估体系。

特点

WorldArena数据集的核心特点在于其多维度的统一评估架构，突破了传统基准仅关注单一性能的局限。它不仅通过精细的指标量化视频生成的质量，更创新性地将世界模型置于具身任务的实际应用场景中，检验其功能性效用。数据集集成了自动化度量与人类主观评价，确保了评估的全面性与可靠性。此外，提出的EWMScore综合指标将复杂性能凝结为一个直观的数值，极大地便利了模型间的横向比较与进展追踪，为领域研究提供了清晰的方向标。

使用方法

研究人员可通过访问WorldArena的官方网站与HuggingFace平台获取数据集与评估工具。使用该数据集时，首先需按照指南准备待评估的世界模型，随后可分别进入视频质量评估与具身任务评估模块。视频评估部分需依据提供的十六项指标进行计算，而任务评估则要求模型在指定功能角色下运行并产出结果。最终，系统将自动整合各项得分并生成EWMScore，用户可将结果提交至官方排行榜，参与全球范围的性能比较与学术交流。

背景与挑战

背景概述

在具身人工智能领域，构建能够精准模拟物理世界动态并支持智能体决策的世界模型，是推动通用智能发展的核心议题。WorldArena数据集应运而生，作为一个统一的基准测试平台，旨在系统评估具身世界模型在感知与功能维度的综合性能。该数据集由相关研究团队于近期创建，其核心研究问题聚焦于如何超越传统的视频生成质量评估，转而衡量模型在复杂交互任务中的实际效用。通过整合视频感知质量、具身任务功能及人类评估等多维度指标，并创新性地提出EWMScore这一整体性度量标准，WorldArena为追踪具身世界模型的功能性进展提供了严谨的框架，对推动该领域从感知模拟迈向实用决策产生了重要影响。

当前挑战

WorldArena数据集致力于解决具身世界模型评估中的核心挑战，即如何统一量化模型在复杂物理环境中的感知逼真度与功能实用性。具体而言，在领域问题层面，挑战体现在设计能够全面覆盖视频质量（如时空一致性、物理合理性）与具身任务性能（如规划、评估）的评估体系，避免评估维度单一化。在构建过程中，挑战则源于多模态数据的高质量采集与标注，确保评估任务既具多样性又能反映真实世界的复杂性，同时需开发如EWMScore般的集成指标，以平衡不同维度得分并生成可解释的整体评价。

常用场景

经典使用场景

在具身人工智能领域，WorldArena作为一个统一的基准测试平台，其经典使用场景集中于系统性地评估世界模型在感知与功能维度的综合性能。研究者通常利用该数据集，通过视频感知质量评估模块，对模型生成的视频序列在保真度、多样性、运动一致性等六个子维度进行量化分析；同时，借助具身任务功能评估模块，检验世界模型作为合成数据引擎、策略评估器与行动规划器的实际效用，从而为模型优化与比较提供标准化依据。

解决学术问题

WorldArena致力于解决具身人工智能研究中世界模型评估体系碎片化的核心学术问题。传统评估往往孤立考察模型的感知质量或任务性能，缺乏统一框架。该数据集通过整合视频感知评估、具身任务功能测试以及人类评估等多维度指标，并创新性地提出EWMScore这一综合性度量，使得研究者能够全面、量化地衡量世界模型在物理规律遵循、指令理解与执行等方面的能力，推动了评估方法从单一维度向多维协同的演进，为领域发展奠定了坚实的评估基础。

衍生相关工作

围绕WorldArena数据集，已衍生出一系列聚焦于世界模型评估与提升的经典研究工作。这些工作主要沿两个方向展开：一是基于其多维评估指标，开发了更高效的视频生成质量自动评估算法，减少了对人类标注的依赖；二是受其具身任务功能评估启发，提出了新型的世界模型架构，旨在更好地融合感知与行动规划，以在EWMScore上取得更优表现。这些衍生工作共同推动了具身世界模型向更高功能实用性的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集