wmbench

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/twanghcmut/wmbench

下载链接

链接失效反馈

官方服务：

资源简介：

WMBench 是一个用于评估世界模型（如 Cosmos、OpenSora 等）生成的视频中是否存在幻觉或异常的基准测试套件，其评估标准基于真实的机器人训练数据分布。该数据集旨在为视频生成模型的幻觉检测和异常检测任务提供评估基准。数据集当前包含一个主要部分：`gr-1/`，其视频数据来源于 NVIDIA 的 GR1 机器人项目（具体为 PhysicalAI-Robotics-GR00T-GR1）。该部分包含 5 个评估任务，共计提供了 5 个真实机器人训练视频和 24 个由 Cosmos 世界模型生成的视频。此外，计划未来纳入来自斯坦福大学 DROID 项目的 `droid/` 数据集。

WMBench is a benchmark test suite for evaluating hallucinations or anomalies in videos generated by world models (such as Cosmos, OpenSora, etc.), with evaluation criteria based on real robot training data distributions. This dataset aims to provide an evaluation benchmark for hallucination detection and anomaly detection tasks in video generation models. The dataset currently includes a main section: `gr-1/`, with video data sourced from NVIDIAs GR1 robot project (specifically PhysicalAI-Robotics-GR00T-GR1). This section contains 5 evaluation tasks, providing a total of 5 real robot training videos and 24 videos generated by the Cosmos world model. Additionally, there are plans to incorporate the `droid/` dataset from Stanford Universitys DROID project in the future.

创建时间：

2026-05-19

搜集汇总

数据集介绍

构建方式

WMBench是一个专为评估世界模型生成视频中幻觉与异常检测能力而设计的基准套件。该数据集以现实机器人训练分布为参照，构建了涵盖NVIDIA GR1与Stanford DROID两大来源的子集，其中GR-1子集包含5类评估任务，每类任务配备一段真实训练视频及24段由Cosmos等世界模型生成的视频。数据集内部按训练、生成、参考图像、预计算零分布及结果等目录组织，并附有详细的method.md文档以保障方法复现。

特点

WMBench的核心特色在于其聚焦世界模型视频与现实分布之间的差异检测，提供了多任务、多来源的标准化评估框架。数据集采用WarpDyn异常检测方法，基于RoMa特征匹配的循环组合误差，构建每任务多滞后零分布并计算比率分数，实现了无需额外训练的纯特征匹配异常检测。此外，每个任务还包含50帧经过SAM3分割的参考PNG图像，用于零分布校准，增强了评估的严谨性与可重复性。

使用方法

使用者首先需根据评估需求选择GR-1或后续推出的DROID子集，然后分别从training与generated目录中获取真实与生成视频。通过运行WarpDyn方法，对每类任务计算循环组合误差，并利用预计算的null_per_task零分布进行比率评分，即可获得视频级别的异常得分。最终检测结果可保存至results目录，结合可视化与排名，便于横向对比不同世界模型的幻觉程度。数据集内置的method.md文件提供了完整的算法复现步骤，确保评估过程标准化。

背景与挑战

背景概述

随着世界模型（如Cosmos、OpenSora等）在机器人领域生成逼真视频的能力日益增强，如何有效区分这些生成的视频与真实机器人训练数据分布之间的差异，成为评估世界模型可靠性的关键问题。WMBench数据集由NVIDIA等机构的研究人员于近期创建，旨在为世界模型生成的视频中的幻觉与异常检测提供一个标准化评估基准。该数据集聚焦于机器人领域，通过构建包含真实任务视频与生成视频的对比样本，推动了对视频生成模型可靠性与真实性的系统性研究，对提升机器人仿真训练的可信度具有重要意义。

当前挑战

当前，WMBench面临的首要挑战在于所解决的领域问题：世界模型生成的视频常存在细微的物理不一致性或语义错误，这些“幻觉”难以被传统检测方法识别，亟需稳健的异常检测算法来区分生成视频与真实数据分布。其次，构建过程中的挑战包括：不同机器人任务（如GR1、DROID）的视觉特征差异显著，导致统一的多滞后零分布建立困难；同时，生成视频的多样性与真实数据的有限性之间的矛盾，要求检测方法需具备高效的跨任务泛化能力，并能在低样本条件下保持检测精度。

常用场景

经典使用场景

在机器人学习与具身智能领域，世界模型生成的视频内容与真实机器人训练数据分布之间的差异，一直是制约模型泛化能力的关键瓶颈。WMBench作为一个专为评估世界模型视频生成幻觉与异常检测而设计的基准套件，其最经典的使用场景是系统性地衡量和对比不同世界模型（如Cosmos、OpenSora等）在生成机器人操作视频时的保真度与可靠性。用户可基于该套件中提供的真实训练视频与生成视频，采用内嵌的WarpDyn方法对视频序列进行特征匹配与周期组合误差分析，从而量化模型在动作连续性、物理一致性等方面的缺陷，为甄别高质量生成样本提供科学依据。

解决学术问题

该数据集精准回应了世界模型研究中一个核心而未解的学术难题：如何客观、可重复地检测生成视频中偏离真实分布的无意义或物理违规内容。通过构建包含多任务、多模型生成样本的标准化评估框架，WMBench解决了以往依赖人工主观判断或简单像素级指标难以捕捉细粒度异常的问题。其方法WarpDyn通过多层时间滞后下的循环组合误差与任务特异性零分布校准，为异常检测提供了统计严谨的评分体系。这一工作的意义在于推动了世界模型生成质量评价从定性观察迈向定量比较，为后续研究者在模型选择、训练策略优化以及安全部署等关键环节树立了可参照的评估标杆。

衍生相关工作

WMBench的提出催生了一系列围绕世界模型生成质量评估与异常检测的衍生工作。一方面，研究者基于其任务分层与多参照零分布校准的框架设计，发展出针对特定机器人本体（如机械臂、双足机器人）的定制化异常检测方案，将特征匹配误差从全局视频级扩展到关键帧和局部运动轨迹的细粒度分析。另一方面，WarpDyn方法所倡导的循环一致性理念，被后续工作借鉴并融合了光流估计、时空Transformer等更复杂的特征表示，形成了新的生成视频保真度度量体系。此外，该基准的公开视频与评估流程也推动了社区合作，促使多个研究团队在同一标准下比较和优化自己的世界模型，有效加速了鲁棒、低幻觉视频生成技术的迭代创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集