WISER

github2026-04-14 更新2026-04-17 收录

下载链接：

https://github.com/QuanyiLi/gwm-wiser

下载链接

链接失效反馈

官方服务：

资源简介：

WISER（世界知识集成语义具身推理）是一个基于ManiSkill构建的语言条件拾取放置基准测试，包含576个任务（288个训练任务和288个保留测试任务），涵盖大量开放世界视觉信号和对齐的参考表达式。数据集以LeRobot v3.0格式和RLDS/TFDS格式提供，用于训练和评估。

WISER (World Knowledge-Integrated Semantic Embodied Reasoning) is a language-conditioned pick-and-place benchmark built on ManiSkill. It contains 576 tasks (288 training tasks and 288 held-out test tasks), covering a large range of open-world visual signals and aligned referring expressions. The dataset is provided in LeRobot v3.0 and RLDS/TFDS formats for training and evaluation.

创建时间：

2026-03-23

原始信息汇总

WISER 数据集概述

数据集基本信息

数据集名称: WISER (World-knowledge Integrated Semantic Embodied Reasoning)
发布平台: HuggingFace
数据集地址: https://huggingface.co/datasets/Shady0057/WISER
关联模型: GWM (Grounded World Model)
模型地址: https://huggingface.co/Shady0057/GWM
基准构建基础: ManiSkill
任务类型: 语言条件化的抓取放置任务
任务规模: 576个任务（288个训练任务 + 288个保留测试任务）

数据集内容与结构

数据格式与版本

主要格式: LeRobot v3.0 格式
可选格式: RLDS/TFDS 格式（用于外部基线模型训练）

数据分片详情

分片名称	格式	大小	用途说明
`merged_train`	LeRobot v3.0	2 GB	训练 — 所有训练脚本使用
`merged_test`	LeRobot v3.0	332 MB	仅验证 — 训练期间的验证损失计算和GT-MPC评估
`no_noise_demo_1_round`	LeRobot v3.0	679 MB	GT-MPC — 包含1/6的训练数据和所有测试数据（预先合并）
`rlds_train`	RLDS/TFDS	21 GB	训练 — 用于OpenVLA / InstructVLA / UniVLA基线模型

重要说明

merged_test 分片绝不用于训练，仅用于计算验证指标和运行GT-MPC规划器。

数据集获取与使用

下载方式

bash

安装HuggingFace CLI

pip install huggingface_hub[cli]

下载数据集到 wiser_dataset/ 目录

hf download Shady0057/WISER --repo-type dataset --include "merged_train/" "merged_test/" "no_noise_demo_1_round/**" "README.md" --local-dir wiser_dataset

自行收集数据

可使用基于规则的mplib专家规划器自行收集数据集，适用于需要不同LeRobot版本、自定义数据加载器或修改收集参数的情况。 bash python gwm_wiser/scripts/save_demo.py --start_index 0 --end_index 24 --dataset_name wiser_dataset

环境与接口

核心接口: build_endless_env 构建环境，rollout() 用于评估和数据收集
观测模式: 支持 "rgb+segmentation"
并行环境: 可配置多个并行环境（示例为12个）

关联模型与基准

Grounded World Model (GWM)

功能: 预测基于自然语言接地的未来视觉嵌入，实现操作任务中的语义可泛化规划
训练数据: 使用 merged_train 分片
预训练模型: 可通过 https://huggingface.co/Shady0057/GWM 下载

基线模型支持

支持在数据集上训练多种LeRobot兼容策略，包括：

pi0
pi0-FAST
pi0.5
SmolVLA
WallX-OSS
xVLA

数据转换

数据集可从LeRobot格式转换为RLDS/TFDS格式，用于训练外部基线模型（如OpenVLA-OFT, InstructVLA）。

引用信息

如需使用本数据集或相关研究，请引用： bibtex @misc{li2026groundedworldmodelsemantically, title={Grounded World Model for Semantically Generalizable Planning}, author={Quanyi Li and Lan Feng and Haonan Zhang and Wuyang Li and Letian Wang and Alexandre Alahi and Harold Soh}, year={2026}, eprint={2604.11751}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2604.11751}, }

搜集汇总

数据集介绍

构建方式

在机器人操作任务领域，WISER数据集的构建依托于ManiSkill仿真平台，通过语言条件化的拾放任务框架精心设计。该数据集包含576个任务，其中288个用于训练，288个用于测试，确保了任务分布的平衡性。数据采集过程采用LeRobot v0.4.3工具，以LeRobotDataset v3.0格式存储，并通过基于规则的mplib专家规划器生成示范数据。训练集额外引入了噪声增强，以提升模型的鲁棒性，而测试集则保持无噪声状态，用于评估语义泛化能力。

特点

WISER数据集的核心特点在于其深度融合了开放世界的视觉信号与对齐的指代表达，为语义可泛化的规划研究提供了丰富基准。数据集涵盖了多样化的物体类别与场景配置，通过语言指令精确描述任务目标，从而支持视觉语言对齐的世界模型训练。其任务设计强调语义泛化性，训练与测试任务之间的性能差距直接反映了模型对新场景的适应能力。此外，数据集提供多种格式支持，包括LeRobot与RLDS/TFDS，便于不同研究框架的集成与应用。

使用方法

使用WISER数据集时，研究人员可通过HuggingFace平台直接下载预处理的LeRobot格式数据，或利用提供的脚本自行采集定制化示范。数据集支持多种训练与评估流程，包括基于Grounded World模型的规划、GT-MPC检索方法以及LeRobot兼容策略的训练。环境接口设计简洁，通过build_endless_env函数构建并行仿真环境，并结合rollout函数进行策略评估与数据收集。数据集的RLDS转换功能进一步扩展了其兼容性，适用于OpenVLA等外部基线模型的训练。

背景与挑战

背景概述

在具身智能与机器人操作领域，实现语义层面的泛化规划一直是核心研究难题。WISER（World-knowledge Integrated Semantic Embodied Reasoning）数据集于2026年由Quanyi Li等研究人员提出，作为Grounded World Model（GWM）研究的配套基准。该数据集构建于ManiSkill平台之上，包含576个语言条件化的抓放任务，旨在整合开放世界的视觉信号与对齐的指代表达，以评估模型在语义层面的泛化能力。其创建标志着从传统技能学习向语义驱动的世界模型预测的重要演进，为机器人理解复杂语言指令并执行多样化操作任务提供了关键的数据支撑。

当前挑战

WISER数据集致力于解决语义具身推理中的泛化挑战，即模型在面对训练阶段未见过的物体属性、场景布局或语言描述时，能否保持稳定的规划性能。构建过程中的挑战主要体现在数据采集与标注的复杂性上：需在仿真环境中生成大量涵盖多样视觉属性和精确语言指代的任务实例，并确保演示数据的质量与一致性。同时，数据格式需兼容多种主流框架（如LeRobot、RLDS），以支持广泛的基线模型评估，这增加了数据处理与集成的技术难度。

常用场景

经典使用场景

在具身智能与机器人操作领域，WISER数据集作为语言条件化的拾放任务基准，其经典使用场景聚焦于评估视觉语言对齐世界模型的语义泛化能力。研究者通常利用该数据集训练如GWM（Grounded World Model）等模型，通过输入自然语言指令与当前视觉观测，预测未来嵌入并规划动作序列，从而在包含288个训练任务和288个测试任务的多样化环境中验证模型对未见物体语义的适应性与鲁棒性。

实际应用

在实际应用层面，WISER数据集为开发智能机器人系统提供了关键支撑。其场景设计模拟了真实世界中的拾放任务，如仓储物流中的物品分拣、家庭服务中的物件整理等。通过基于该数据集的模型训练与评估，能够提升机器人对复杂语言指令的理解能力，使其在动态、多变的物理环境中准确识别并操作各类物体，最终促进服务机器人、工业自动化等领域的智能化升级。

衍生相关工作

围绕WISER数据集，已衍生出一系列经典研究工作。除了核心的GWM模型外，研究者基于该数据集开发了多种视觉语言动作（VLA）基线模型，如pi0、SmolVLA、WallX等，这些工作进一步探索了不同架构在语义规划任务上的性能。同时，数据集支持的GT-MPC（基于真实观测的模型预测控制）方法为规划算法提供了强基准，而向RLDS格式的转换也促进了与OpenVLA、InstructVLA等外部模型的集成与比较，共同丰富了具身智能的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集