ViPlan

Name: ViPlan
Creator: Aalto大学计算机科学系, 布鲁诺·凯斯勒基金会, 帕多瓦大学数学系
Published: 2025-05-19 22:38:15
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/merlerm/ViPlan

下载链接

链接失效反馈

官方服务：

资源简介：

ViPlan是一个用于评估视觉规划任务中视觉语言模型（VLMs）的开源基准。该数据集包含两个领域的一系列具有挑战性的任务：一个是经典Blocksworld规划问题的视觉变体，另一个是模拟的家庭机器人环境。ViPlan旨在评估不同大小和类型的VLMs，以及它们在视觉规划任务中的表现。该数据集旨在帮助研究人员更好地理解VLMs在视觉规划任务中的能力和局限性，并为未来的研究提供参考。

ViPlan is an open-source benchmark for evaluating Vision-Language Models (VLMs) on visual planning tasks. This dataset comprises a series of challenging tasks spanning two domains: one is the visual variant of the classic Blocksworld planning problem, and the other is a simulated household robotic environment. ViPlan aims to evaluate VLMs of different sizes and types, as well as their performance on visual planning tasks. This benchmark is intended to help researchers better understand the capabilities and limitations of VLMs in visual planning tasks, and provide a reference for future research.

提供机构：

Aalto大学计算机科学系, 布鲁诺·凯斯勒基金会, 帕多瓦大学数学系

创建时间：

2025-05-19

原始信息汇总

ViPlan 数据集概述

数据集简介

ViPlan是一个用于视觉规划的基准测试，结合了符号谓词和视觉语言模型。该数据集主要用于评估视觉规划任务的性能。

项目结构

源代码：viplan
笔记本：notebooks（主要用于结果可视化）
运行基准测试的脚本：sh_scripts
数据：data

安装要求

主要组件

推荐使用mamba进行安装，环境配置文件为environment.yml
支持conda安装但不官方支持

可选组件

Flash Attention需要单独安装
运行Molmo需要降级transformers至4.50.3版本

环境配置

Blocksworld环境

基于Photorealistic Blocksworld渲染器
需要安装Blender和libxi包

Household环境

基于定制版iGibson
要求：
- apptainer（原Singularity）
- 需要申请加密密钥
安装步骤包括：
- 克隆iGibson和behavior仓库
- 使用Apptainer拉取镜像
- 安装iGibson依赖项
- 下载iGibson资产数据

基准测试运行

提供本地运行和SLURM集群运行的bash脚本
脚本位于sh_scripts文件夹
运行开源模型可能需要Hugging Face hub的token
运行闭源模型需要提供API密钥

结果

实验结果存储在results文件夹
提供Jupyter notebooks用于结果处理和可视化

搜集汇总

数据集介绍

构建方式

ViPlan数据集的构建采用了两种互补的评估设置（VLM-as-grounder和VLM-as-planner）和两个交互式领域（ViPlan-BW和ViPlan-HH）。ViPlan-BW基于经典的Blocksworld规划领域，通过照片级渲染器生成25个不同难度的问题，每个问题包含不同数量的积木和列。ViPlan-HH则建立在iGibson 2.0家庭机器人模拟器上，实现了Fetch机器人的高级动作，并通过BDDL问题转换为PDDL格式，生成了25个家庭任务问题。数据集的构建过程严格验证了每个任务的可解性，并确保了环境状态的多样性和复杂性。

使用方法

使用ViPlan数据集时，研究人员可以通过两种主要方式进行评估。在VLM-as-grounder模式下，首先使用VLM枚举所有可能的谓词真值以生成初始计划，然后在每个动作执行前后验证前提条件和效果。在VLM-as-planner模式下，VLM直接根据当前状态图像和目标描述生成完整的动作序列。数据集提供了详细的评估指标，包括任务成功率和单个谓词预测准确率。使用时需注意，ViPlan-HH中的部分可观察性可能需要额外的特权信息，而ViPlan-BW则假设动作执行是完美的。

背景与挑战

背景概述

ViPlan是由Aalto University、Fondazione Bruno Kessler和Università degli Studi di Padova的研究团队于2025年推出的首个开源视觉规划基准测试，专注于评估视觉语言模型（VLMs）在符号谓词和视觉规划任务中的表现。该数据集包含两个主要领域：经典Blocksworld规划问题的视觉变体ViPlan-BW和模拟家庭机器人环境ViPlan-HH，旨在解决视觉与符号规划整合的共性挑战。ViPlan的创建填补了当前缺乏统一评估环境和协议的研究空白，为比较不同VLM在规划任务中的性能提供了标准化平台，对推动具身智能和机器人任务规划领域的发展具有重要意义。

当前挑战

ViPlan面临的挑战主要体现在两个方面：领域问题方面，需解决视觉符号整合中谓词 grounding 的精确性难题（如物体关系识别）和长序列决策中的错误累积问题；构建过程方面，需处理视觉观察与符号状态的对齐复杂性（特别是部分可观测场景）、多模态数据融合的技术瓶颈，以及确保评估协议在动态环境中的鲁棒性。具体而言，ViPlan-BW要求模型精确感知抽象空间关系，而ViPlan-HH则需要结合常识推理处理开放世界的模糊性，这对当前VLMs的视觉推理和世界建模能力提出了严峻考验。

常用场景

经典使用场景

ViPlan数据集在视觉规划领域中被广泛应用于评估视觉语言模型（VLMs）在符号谓词和视觉规划任务中的表现。该数据集通过模拟经典的Blocksworld规划问题和家庭机器人环境，为研究者提供了一个动态评估平台，用于比较VLM作为规划器和VLM作为符号规划器的接地器两种方法的性能。

解决学术问题

ViPlan数据集解决了当前视觉语言模型在规划任务中缺乏统一评估标准的问题。通过提供两个具有不同挑战性的领域（ViPlan-BW和ViPlan-HH），该数据集能够评估模型在抽象规划和现实世界规划任务中的表现。此外，ViPlan还揭示了当前VLMs在视觉推理和错误恢复能力上的局限性，为未来研究提供了方向。

实际应用

在实际应用中，ViPlan数据集可被用于开发更可靠的机器人规划系统。例如，在家庭服务机器人领域，基于ViPlan-HH训练的模型能够更好地完成物品整理、清洁等任务。而在工业自动化领域，ViPlan-BW的评估结果可帮助优化基于视觉的块状物体排列系统。

数据集最近研究