WISER
收藏WISER 数据集概述
数据集基本信息
- 数据集名称: WISER (World-knowledge Integrated Semantic Embodied Reasoning)
- 发布平台: HuggingFace
- 数据集地址: https://huggingface.co/datasets/Shady0057/WISER
- 关联模型: GWM (Grounded World Model)
- 模型地址: https://huggingface.co/Shady0057/GWM
- 基准构建基础: ManiSkill
- 任务类型: 语言条件化的抓取放置任务
- 任务规模: 576个任务(288个训练任务 + 288个保留测试任务)
数据集内容与结构
数据格式与版本
- 主要格式: LeRobot v3.0 格式
- 可选格式: RLDS/TFDS 格式(用于外部基线模型训练)
数据分片详情
| 分片名称 | 格式 | 大小 | 用途说明 |
|---|---|---|---|
merged_train |
LeRobot v3.0 | 2 GB | 训练 — 所有训练脚本使用 |
merged_test |
LeRobot v3.0 | 332 MB | 仅验证 — 训练期间的验证损失计算和GT-MPC评估 |
no_noise_demo_1_round |
LeRobot v3.0 | 679 MB | GT-MPC — 包含1/6的训练数据和所有测试数据(预先合并) |
rlds_train |
RLDS/TFDS | 21 GB | 训练 — 用于OpenVLA / InstructVLA / UniVLA基线模型 |
重要说明
merged_test分片绝不用于训练,仅用于计算验证指标和运行GT-MPC规划器。
数据集获取与使用
下载方式
bash
安装HuggingFace CLI
pip install huggingface_hub[cli]
下载数据集到 wiser_dataset/ 目录
hf download Shady0057/WISER --repo-type dataset --include "merged_train/" "merged_test/" "no_noise_demo_1_round/**" "README.md" --local-dir wiser_dataset
自行收集数据
可使用基于规则的mplib专家规划器自行收集数据集,适用于需要不同LeRobot版本、自定义数据加载器或修改收集参数的情况。 bash python gwm_wiser/scripts/save_demo.py --start_index 0 --end_index 24 --dataset_name wiser_dataset
环境与接口
- 核心接口:
build_endless_env构建环境,rollout()用于评估和数据收集 - 观测模式: 支持 "rgb+segmentation"
- 并行环境: 可配置多个并行环境(示例为12个)
关联模型与基准
Grounded World Model (GWM)
- 功能: 预测基于自然语言接地的未来视觉嵌入,实现操作任务中的语义可泛化规划
- 训练数据: 使用
merged_train分片 - 预训练模型: 可通过 https://huggingface.co/Shady0057/GWM 下载
基线模型支持
支持在数据集上训练多种LeRobot兼容策略,包括:
- pi0
- pi0-FAST
- pi0.5
- SmolVLA
- WallX-OSS
- xVLA
数据转换
数据集可从LeRobot格式转换为RLDS/TFDS格式,用于训练外部基线模型(如OpenVLA-OFT, InstructVLA)。
引用信息
如需使用本数据集或相关研究,请引用: bibtex @misc{li2026groundedworldmodelsemantically, title={Grounded World Model for Semantically Generalizable Planning}, author={Quanyi Li and Lan Feng and Haonan Zhang and Wuyang Li and Letian Wang and Alexandre Alahi and Harold Soh}, year={2026}, eprint={2604.11751}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2604.11751}, }




