EmbodiedWorld-200K
收藏github2026-05-31 更新2026-06-01 收录
下载链接:
https://github.com/XiaokunFeng/EmbodiedWorld-200K
下载链接
链接失效反馈官方服务:
资源简介:
EmbodiedWorld-200K是一个大规模开放世界具身规划数据集,包含从原始游戏剪辑和6自由度相机姿态轨迹转换而来的规范三元组格式(o₀,ℓ,a₁:T),并提供了基于视觉语言模型的指令注释,用于导航和动作预测任务。
EmbodiedWorld-200K is a large-scale open-world embodied planning dataset. It comprises standard triplet format (o₀, ℓ, a₁:T) converted from raw game clips and 6-degree-of-freedom camera pose trajectories, and provides instruction annotations based on vision-language models for navigation and action prediction tasks.
创建时间:
2026-05-06
原始信息汇总
数据集概述
EmbodiedWorld-200K 是一个大规模开放世界具身规划数据集。该仓库提供了数据构建管道和评估工具包,支持再现或扩展数据集,以及在新方法上以统一协议进行评分。
- 数据集名称: EmbodiedWorld-200K
- 数据类型: 开放世界具身规划数据,包含
(o₀, ℓ, a₁:T)三元组格式(起始帧、语言指令、动作序列)。 - 数据来源: 原始游戏片段和6自由度相机姿态轨迹。
数据集构建管道
管道分为三个步骤,所有超参数与论文一致:
- 步骤1+2(CPU运行):从原始样本清单(每个游戏片段对应一个JSON,包含视频及其6-DoF相机姿态JSON)生成导航连贯的片段及其变长W/A/S/D动作流。
- 关键参数(默认值):
trans_unit=0.05(平移单位),rot_unit_deg=5.0(旋转单位),min_segment_len=60(最小片段长度),angle_threshold_deg=90(角度阈值)。
- 关键参数(默认值):
- 步骤3(GPU + vLLM):基于视觉语言模型(VLM)的指令标注,包括详细运动标注、方向一致性标注和导航目标标注。
- 支持独立调用各子模块(
detailed_movement.py,direction_consistency.py,goal_navigation.py)。
- 支持独立调用各子模块(
评估工具
提供统一的评估协议,输出五个核心指标:
- TM(轨迹匹配)
- DirAcc(方向准确率)
- nDTW(归一化动态时间规整)
- SR(成功率)
- NE(导航误差)
支持按 move_type_bucket(移动类型桶)进行细分分析,并可输出每样本CSV和聚合JSON摘要。
依赖与安装
- Python ≥ 3.10
- 核心依赖(CPU):NumPy, Pillow(用于步骤1+2及评估)
- 可选依赖(GPU):torch, transformers, vllm, decord, qwen-vl-utils(用于步骤3 VLM标注)
- 测试环境:Qwen3.5-27B, vllm≥0.6, transformers≥4.45
使用方式
- 命令行:通过
data_pipeline.run_pipeline或各独立模块CLI运行管道,通过evaluation.eval评估预测结果。 - Python包:所有模块均可导入,便于嵌入训练循环或自定义超参数。
致谢
管道基于以下社区工作构建:
- OGameData 游戏视频存储库
- VIPE 6-DoF姿态估计器
- Qwen3.5 视觉语言模型族
数据及模型获取
数据集、基线检查点和训练好的EWA模型托管在项目页面:https://xiaokunfeng.github.io/EmbodiedWorld-200K/
搜集汇总
数据集介绍

构建方式
EmbodiedWorld-200K是一个面向开放世界具身规划任务的大规模数据集。其构建流程基于原始游戏视频片段与六自由度相机位姿轨迹,通过一套模块化流水线转化为规范的(o₀, ℓ, a₁:T)三元组格式。首先,利用运动分割与离散化算法,将连续轨迹切分为导航连贯的片段,并生成对应的W/A/S/D离散动作流。随后,引入视觉语言模型(如Qwen3.5-27B)对每个片段进行指令标注,包括精细运动描述、方向一致性校验与目标导航指令生成。整个过程超参数与论文保持一致,确保了数据集的可复现性与扩展性。
特点
该数据集的核心特点在于其大规模、开放世界与结构化标注的统一。涵盖丰富的导航场景与动作序列,每个样本均包含视觉观测、自然语言指令与离散动作流,为具身规划研究提供了标准化的基准。数据集构建流水线完全开源,支持用户基于原始游戏数据自行复现或扩展,极大降低了数据获取门槛。此外,配套的评估工具包实现了五种经典指标(TM、DirAcc、nDTW、SR、NE)的自动化计算,并支持按运动类型分桶分析,便于全面衡量模型性能。
使用方法
数据集的使用分为构建与评估两个独立路径。在构建阶段,用户只需准备原始样本清单(含视频与位姿信息),运行流水线即可生成标注后的数据集。流水线支持分步执行,便于在多机环境下部署。在评估阶段,用户将模型推理结果以指定JSON格式输入评估脚本,即可获得各项指标与详细诊断信息。所有模块均可作为Python包导入,方便集成至自定义训练循环中,提供了高度灵活的使用方式。
背景与挑战
背景概述
在具身人工智能领域,智能体在开放世界中的导航与规划能力是衡量其通用智能水平的关键指标。然而,现有数据集多局限于静态、封闭或模拟环境,难以反映真实世界动态变化与长时域决策的复杂性。为弥合这一鸿沟,由Xiaokun Feng等研究者于近年提出的EmbodiedWorld-200K大规模开放世界具身规划数据集应运而生。该数据集通过创新的数据构建流水线,将原始游戏玩视频与六自由度相机姿态轨迹转化为标准化的(o₀, ℓ, a₁:T)三元组格式,为开放世界中的导航与规划任务提供了规模化、可复现的基准。其发布不仅推动了具身规划研究从封闭环境向开放世界的跃迁,也为后续工作奠定了数据与评估范式的基础。
当前挑战
EmbodiedWorld-200K所应对的核心领域挑战在于开放世界具身规划的复杂性:智能体需在无先验地图、动态障碍与长时域任务的条件下,基于视觉观测与语言指令进行连贯的导航与操作决策,这要求模型同时具备空间理解、时序推理与目标导向行为的能力。在数据构建过程中,亦面临多重技术挑战:首先,从原始视频与姿态轨迹中提取导航一致的分段,需在离散化动作空间、角度阈值与最小片段长度等超参数间取得平衡,以避免噪声或过分割;其次,利用视觉语言模型进行指令标注时,需解决精细运动描述、方向一致性校验与目标导航意图建模的语义对齐问题;此外,整个流水线的高效可复现性,尤其是大规模场景下VLM推理的GPU资源调度与多机协同,构成部署层面的工程挑战。
常用场景
经典使用场景
在具身智能与开放世界导航研究领域,EmbodiedWorld-200K作为首个大规模开放世界具身规划数据集,其经典使用场景聚焦于将原始游戏视频与6自由度相机位姿轨迹转化为标准化的(初始观察,语言指令,动作序列)三元组格式。研究者可利用此数据集训练和评估具身智能体在复杂、非结构化环境中的长时序导航与操作规划能力,尤其是在缺乏严格语义先验的开放世界设定下,推动从感知到行动端的联合推理发展。
实际应用
在实际应用层面,EmbodiedWorld-200K可直接赋能自主移动机器人、虚拟环境智能代理以及游戏AI的导航与任务规划模块。通过基于视觉语言模型的动作指令注释流程,数据集支持将自然语言目标转化为连续的W/A/S/D动作流,适用于家庭服务机器人路径规划、未知环境探索决策以及元宇宙中虚拟角色的拟人化行为生成等场景,填补了从感知指令到运动控制的端到端训练数据空白。
衍生相关工作
围绕EmbodiedWorld-200K衍生了一系列经典工作,包括基于视觉语言大模型(如Qwen3.5系列)的指令注释与规划策略迁移方法,以及融合6自由度位姿估计与轨迹分割的通用数据构建管线。此外,该数据集促生了多项针对开放世界导航的元学习与强化学习研究,例如利用分层抽象动作空间提升长程任务泛化性,以及探索对抗性环境扰动下规划策略的鲁棒性优化,形成了从数据驱动到算法创新闭环的研究生态。
以上内容由遇见数据集搜集并总结生成



