WorldArena_Robotwin2.0

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/WorldArena/WorldArena_Robotwin2.0

下载链接

链接失效反馈

官方服务：

资源简介：

RoboTwin Embodied Video Generation Dataset for WorldArena 是一个专为具身视频生成和评估设计的数据集，用于支持WorldArena的两个主要排行榜和一个交互式竞技场的评估。数据集包含测试集（test_dataset）和验证集（val_dataset），分别用于排行榜评估和交互式比较。每个episode包含四个对齐的文件：1) episodeK.hdf5，包含主要动作序列和末端执行器姿态；2) episodeK.json，包含语言提示；3) episodeK.jpg，初始视觉条件帧。此外，还提供了两个新的提示变体（instructions_1和instructions_2）以评估不同的动作跟随。数据集要求模型基于初始帧和指令生成包含1000（测试集）或500（验证集）视频的视频集。数据来源于RoboTwin 2.0数据集，适用于具身视频生成和相关研究任务。

创建时间：

2026-02-28

原始信息汇总

WorldArena_Robotwin2.0 数据集概述

数据集基本信息

许可证: Apache 2.0
语言: 英语
标签: 代码
数据集名称: RoboTwin Embodied Video Generation Benchmark Dataset for WorldArena evaluation
数据规模: 10B < n < 100B

数据集目的

该数据集专为具身视频生成和评估而设计，用于支持WorldArena的两个主要排行榜和一个交互式竞技场的评估。

数据集构成

评估集划分

Leaderboard 测试集 (test_dataset)：用于排行榜评估的数据集。需从 test_dataset.tar.gz 中提取目录。
Arena 验证集 (val_dataset)：用于竞技场（交互式比较）的数据集。用户可为特定片段上传自己生成的视频，并与现有基线进行实时指标比较。需从 val_dataset.tar.gz 中提取目录。

最终评估结果将分别同步至排行榜和竞技场（可选）。

数据结构与模态

对于任一片段（例如 episodeK），以下四个文件是一一对应且必须一起使用的：

动作序列文件
- 路径：data/.../episodeK.hdf5
- 内容：包含关节动作、末端执行器位姿的主要动作序列容器。
语言提示文件
- 主提示文件路径：instructions/.../episodeK.json
- 内容：包含一个字段 instruction。
- 用途：使用 instruction 从 test_dataset 生成名为 {model_name}_test 的视频数据集，或从 val_dataset 生成名为 {model_name}_val 的视频数据集。
- 动作跟随的新提示变体：
  - 为评估具有新不同动作的动作跟随，提供了两个额外的提示集：
  - instructions_1/.../episodeK.json：使用 instruction_1 从 test_dataset 生成名为 {model_name}_test_1 的视频数据集，或从 val_dataset 生成名为 {model_name}_val_1 的视频数据集。
  - instructions_2/.../episodeK.json：使用 instruction_2 从 test_dataset 生成名为 {model_name}_test_2 的视频数据集，或从 val_dataset 生成名为 {model_name}_val_2 的视频数据集。
  - 使用这两个提示生成两个新的动作视频。如果动作引导视频缺乏可修改的提示，可考虑使用同一任务中的其他动作来实现两种不同的动作，并类似地命名生成的视频数据集。
初始视觉条件帧
- 路径：first_frame/.../episodeK.jpg
- 用途：在生成视频时作为第一帧使用。

快速推理指南

为 episodeK 生成未来视频的步骤：

初始条件：使用 first_frame/.../episodeK.png。
文本目标：从 instructions(_1,_2)/.../episodeK.json 中提取 instruction(_1,_2)。
参考数据：使用 data/.../episodeK.hdf5 或 _traj_data/.../episodeK.pkl 作为运动/动作/轨迹引导。

要求：模型应以 first_frame 和 instruction/action 作为输入，生成一个包含 1000个（测试集）/500个（验证集）与 first_frame 对应视频的视频集。然后使用 instruction_1/_2 类似地生成视频集，每个集同样包含 1000个（测试集）/500个（验证集）视频。

技术规格

数据是从 RoboTwin 2.0 数据集中采样和处理得到的。关于详细的技术规格、HDF5 结构和坐标系，请参阅官方文档：https://robotwin-platform.github.io/

搜集汇总

数据集介绍

构建方式

在具身智能与视频生成交叉领域，WorldArena_Robotwin2.0数据集基于RoboTwin 2.0原始数据精心构建而成。该数据集通过系统采样与多模态对齐处理，将机器人动作序列、语言指令及初始视觉帧整合为结构化评估资源。每个情节单元均包含严格对齐的HDF5动作文件、JSON指令文件及JPG首帧图像，确保了数据在时间与语义维度的一致性，为具身视频生成任务提供了可靠基准。

特点

该数据集具备多模态协同与评估导向的鲜明特点。其核心在于动作序列、自然语言指令与初始视觉帧的精确对齐，支持从单一首帧和文本目标生成连续视频。数据集特别设计了多指令变体，通过instructions_1与instructions_2提供差异化动作引导，扩展了模型在动作跟随能力上的测试维度。此外，数据集明确划分为测试集与验证集，分别服务于静态排行榜评估与交互式竞技场对比，兼顾了标准化评测与灵活比较的需求。

使用方法

使用该数据集时，需依据评估场景选择测试集或验证集，并严格遵循多模态输入规范。模型应以首帧图像为初始视觉条件，从对应指令文件中提取文本目标，并可选择性参考HDF5中的动作轨迹数据作为生成引导。生成视频需按指定命名规则组织，以匹配不同指令变体对应的输出要求。最终，生成的视频集可提交至WorldArena平台，参与排行榜自动评测或竞技场交互式对比，实现模型性能的全面衡量。

背景与挑战

背景概述

WorldArena_Robotwin2.0数据集由WorldArena团队于2024年构建，旨在推动具身视频生成领域的研究进展。该数据集基于RoboTwin 2.0平台，通过整合多模态数据，包括初始视觉帧、语言指令和机器人动作序列，为评估模型在复杂交互环境中的视频生成能力提供了标准化基准。其核心研究问题聚焦于如何使人工智能系统根据语言指令和初始视觉条件，生成符合物理规律的动态视频序列，从而模拟机器人在真实世界中的行为。这一工作对机器人学、计算机视觉和自然语言处理的交叉领域产生了显著影响，促进了具身智能向更高效、更逼真的方向发展。

当前挑战

WorldArena_Robotwin2.0数据集旨在解决具身视频生成中的关键挑战，即如何基于语言指令和初始视觉帧，生成物理合理、时序连贯且与指令高度对齐的动态视频。具体挑战包括：模型需处理多模态输入的复杂对齐问题，确保动作序列与语言描述的一致性；同时，视频生成必须符合真实世界的物理约束，避免出现违反动力学规律的现象。在构建过程中，数据集面临数据采集与标注的难题，如从RoboTwin 2.0平台提取高精度动作轨迹并与语言指令精确匹配，以及确保大规模视频数据在时空维度上的对齐与质量可控，这些都对数据处理流程提出了严格要求。

常用场景

经典使用场景

在具身智能与视频生成交叉领域，WorldArena_Robotwin2.0数据集为评估模型在机器人操作任务中的视频生成能力提供了标准化基准。其经典使用场景集中于基于初始视觉帧与语言指令，生成连贯且符合物理规律的未来动作视频。研究者利用该数据集测试模型在给定第一帧图像和文本目标条件下，预测并合成机器人执行特定任务（如抓取、放置等）的视觉序列，从而在Leaderboard和Arena两个平台上进行系统性性能比较与排名。

解决学术问题

该数据集有效解决了具身视频生成研究中缺乏高质量、多模态对齐基准的难题。通过提供精确对齐的初始帧、语言指令和动作序列数据，它支持对模型在复杂动态场景中理解指令、推理物理交互及生成逼真视频的能力进行定量评估。其意义在于推动了具身智能从静态感知向动态生成迈进，为跨模态推理、时序预测和物理常识建模等核心学术问题提供了可重复的实验基础，促进了该领域研究方法的标准化与可比性。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于具身视频生成与动作合成的经典研究工作。这些工作通常探索如何融合视觉、语言与运动数据，以提升生成视频的物理合理性与指令跟随精度。例如，基于其多提示变体（instruction_1/_2）的研究推动了模型在多样化动作泛化与对抗性测试方面的进展。同时，该数据集也催生了针对时序一致性、多模态对齐损失函数以及分层生成架构的创新，为后续更复杂的具身交互仿真基准奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集