iWorld-Bench-Dataset

Hugging Face2026-05-18 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/EmbodiedCity/iWorld-Bench-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

iWorld-Bench模拟数据集是iWorld-Bench基准测试的组成部分，专门用于评估相机可控视频生成模型和交互式世界模型。该数据集包含从四个高质量模拟器来源（Aerial VLN、UAV ON、Openfly和EmbodiedCity）中精选的模拟环境。数据以环境索引（从dataset_env0到dataset_env26）组织，共包含27个独立的环境包。每个环境包内包含两个核心对齐组件：`videos/`目录下的渲染模拟视频片段（MP4格式）和`cameras/`目录下与之对应的相机轨迹文件（TXT格式），两者通过相同的文件名主干进行配对。数据集采用分环境打包的ZIP存档格式分发，便于大规模传输和部分检索。其中，`dataset_env0`已确认为EmbodiedCity环境。该数据集主要服务于交互式世界模型的训练与评估、相机控制视频生成的测试、轨迹跟随能力的研究，以及构建具身世界模拟的基准测试等研究场景。

The iWorld-Bench simulation dataset is a component of the iWorld-Bench benchmark, specifically designed for evaluating camera-controllable video generation models and interactive world models. It contains curated simulation environments from four high-quality simulator sources: Aerial VLN, UAV ON, Openfly, and EmbodiedCity. The data is organized by environment indices (from dataset_env0 to dataset_env26), comprising 27 independent environment packages. Each package includes two core aligned components: rendered simulation video clips (in MP4 format) in the `videos/` directory and their corresponding camera trajectory files (in TXT format) in the `cameras/` directory, paired via the same filename stem. The dataset is distributed in ZIP archive format, packaged per environment, to facilitate large-scale transmission and partial retrieval. Notably, `dataset_env0` is confirmed as the EmbodiedCity environment. It primarily serves research scenarios such as training and evaluation of interactive world models, testing of camera-controlled video generation, study of trajectory following capabilities, and building benchmarks for embodied world simulation.

创建时间：

2026-05-05

搜集汇总

数据集介绍

构建方式

iWorld-Bench-Dataset 是面向可控制相机视频生成模型与交互式世界模型评估的仿真档案数据集。其构建基于四类高质量模拟器环境——Aerial VLN、UAV ON、Openfly 与 EmbodiedCity，通过精心筛选的场景索引从 dataset_env0 至 dataset_env26 组织数据。每一环境均以独立 ZIP 压缩包集合的形式发布，并辅以 manifest.json 清单文件记录归档元数据，涵盖文件名、数量、原始路径与文件大小等关键信息，从而确保大规模数据的分发、下载、部分检索与恢复过程的鲁棒性与可验证性。

特点

该数据集的核心特色在于其严格配对的视频与相机轨迹文件结构。每个环境中，rendered simulation video clips 存储在 videos/ 目录下，而与之精确对齐的相机控制轨迹文件则位于 cameras/ 目录中，二者通过相同的文件名主干实现一一对应。这种设计使得数据集能够同时提供视觉观测序列与相机内外参或轨迹指令信号，为研究相机可控视频生成、轨迹跟随、动作条件视觉预测以及具身世界模型等任务提供了高度结构化的监督信号与评测基准。

使用方法

研究人员可通过匹配文件名主干来读取配对的视频与相机文件，将视频片段作为视觉序列输入，对应的相机文件提供对齐的轨迹控制信号。该数据集支持多种研究路径：训练交互式世界模型时，将其作为仿真监督数据；评估相机可控视频生成模型时，检验生成视频是否遵循特定相机路径；分析轨迹跟随能力时，考察视觉运动与目标相机轨迹间的一致性。推荐结合官方代码仓库与评测指标文档，使用 dataset/all_pack 中的推理数据完成模型评估流程。

背景与挑战

背景概述

iWorld-Bench-Dataset由Jianjie Fang、Yingshan Lei等研究者联合机构于2026年创建，发表于ICML 2026，聚焦交互式世界模型与可控视频生成领域的评估基准构建。随着具身智能与仿真环境的发展，如何衡量模型在复杂动态场景中根据相机轨迹生成连贯视频的能力，成为推动通用世界模型落地的关键问题。该数据集整合了Aerial VLN、UAV ON、Openfly及EmbodiedCity四大仿真器中的高质量环境，提供对齐的渲染视频与相机轨迹文件，为研究相机可控视频生成、轨迹跟踪及动作条件视觉预测提供了标准化评测平台，在学术界与工业界产生了深远影响。

当前挑战

该数据集面临的核心挑战包括：领域问题层面，现有视频生成模型难以在复杂三维场景中严格遵循精细相机轨迹，导致视觉运动与目标路径存在偏差，同时交互式世界模型需要同步建模环境动态与动作控制信号，这对模型的长时依赖与因果推理能力提出极高要求。构建过程中，如何从异构仿真器中筛选出具有代表性且物理一致性高的环境，并保证视频帧与相机参数在时间轴上的精确对齐，成为数据质量的瓶颈；此外，大规模多ZIP分片存储机制虽提升了传输鲁棒性，但也增加了数据校验与环境间一致性维护的复杂度。

常用场景

经典使用场景

iWorld-Bench-Dataset作为交互式世界模型与摄像机可控视频生成领域的基准数据集，其经典使用场景聚焦于评估生成模型在给定摄像机轨迹条件下的视觉预测能力。研究者通过加载该数据集提供的配对视频片段与摄像机轨迹文件，可系统测试模型对于连续视觉序列与摄像机运动参数之间映射关系的建模水平。该数据集涵盖无人机航拍、城市仿真等多源环境样本，为摄像机控制、轨迹跟踪以及动作条件视觉预测等研究任务提供了标准化的测试协议与跨场景的评估基准。

解决学术问题

该数据集精准回应了交互式世界模型评估中缺乏统一仿真基准的核心困境。长久以来，摄像机控制视频生成领域面临评估标准碎片化、环境多样性不足以及轨迹‑视觉一致性量化困难等关键挑战。iWorld-Bench-Dataset通过提供来自Aerial VLN、EmbodiedCity等四个仿真器的高质量环境素材与对齐的摄像机参数，为学术界构建了首个大规模、多模态的交互式世界模型评估体系。其出现显著提升了模型在轨迹跟随精度、动作条件预测一致性等维度的可比性与可复现性，推动了视觉预测从定性演示向定量评测的范式演进。

衍生相关工作

该数据集催生了多条富有影响力的研究脉络。在基准方法层面，研究人员基于其评价指标框架开发了iWorld-Bench统一动作生成模型，首次将分散的轨迹跟随、摄像机控制与视频预测任务纳入一致的理论框架。围绕该数据集，衍生出针对城市环境的长时序视觉预测工作，如基于Transformer的航迹规划器。在评估指标方面，配套发布的度量文档推动了摄像机‑视觉一致性度量的标准化，其摄像机轨迹匹配算法被后续多家单位的轨迹跟随工作所引用适配。这些衍生工作共同编织出以iWorld-Bench-Dataset为锚点的交互式世界模型研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集