ViPlan
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://github.com/merlerm/ViPlan
下载链接
链接失效反馈官方服务:
资源简介:
ViPlan是一个用于评估视觉规划任务中视觉语言模型(VLMs)的开源基准。该数据集包含两个领域的一系列具有挑战性的任务:一个是经典Blocksworld规划问题的视觉变体,另一个是模拟的家庭机器人环境。ViPlan旨在评估不同大小和类型的VLMs,以及它们在视觉规划任务中的表现。该数据集旨在帮助研究人员更好地理解VLMs在视觉规划任务中的能力和局限性,并为未来的研究提供参考。
ViPlan is an open-source benchmark for evaluating Vision-Language Models (VLMs) on visual planning tasks. This dataset comprises a series of challenging tasks spanning two domains: one is the visual variant of the classic Blocksworld planning problem, and the other is a simulated household robotic environment. ViPlan aims to evaluate VLMs of different sizes and types, as well as their performance on visual planning tasks. This benchmark is intended to help researchers better understand the capabilities and limitations of VLMs in visual planning tasks, and provide a reference for future research.
提供机构:
Aalto大学计算机科学系, 布鲁诺·凯斯勒基金会, 帕多瓦大学数学系
创建时间:
2025-05-19
原始信息汇总
ViPlan 数据集概述
数据集简介
ViPlan是一个用于视觉规划的基准测试,结合了符号谓词和视觉语言模型。该数据集主要用于评估视觉规划任务的性能。
项目结构
- 源代码:viplan
- 笔记本:notebooks(主要用于结果可视化)
- 运行基准测试的脚本:sh_scripts
- 数据:data
安装要求
主要组件
- 推荐使用mamba进行安装,环境配置文件为
environment.yml - 支持conda安装但不官方支持
可选组件
- Flash Attention需要单独安装
- 运行Molmo需要降级
transformers至4.50.3版本
环境配置
Blocksworld环境
- 基于Photorealistic Blocksworld渲染器
- 需要安装Blender和libxi包
Household环境
- 基于定制版iGibson
- 要求:
- apptainer(原Singularity)
- 需要申请加密密钥
- 安装步骤包括:
- 克隆iGibson和behavior仓库
- 使用Apptainer拉取镜像
- 安装iGibson依赖项
- 下载iGibson资产数据
基准测试运行
- 提供本地运行和SLURM集群运行的bash脚本
- 脚本位于
sh_scripts文件夹 - 运行开源模型可能需要Hugging Face hub的token
- 运行闭源模型需要提供API密钥
结果
- 实验结果存储在
results文件夹 - 提供Jupyter notebooks用于结果处理和可视化
搜集汇总
数据集介绍

构建方式
ViPlan数据集的构建采用了两种互补的评估设置(VLM-as-grounder和VLM-as-planner)和两个交互式领域(ViPlan-BW和ViPlan-HH)。ViPlan-BW基于经典的Blocksworld规划领域,通过照片级渲染器生成25个不同难度的问题,每个问题包含不同数量的积木和列。ViPlan-HH则建立在iGibson 2.0家庭机器人模拟器上,实现了Fetch机器人的高级动作,并通过BDDL问题转换为PDDL格式,生成了25个家庭任务问题。数据集的构建过程严格验证了每个任务的可解性,并确保了环境状态的多样性和复杂性。
使用方法
使用ViPlan数据集时,研究人员可以通过两种主要方式进行评估。在VLM-as-grounder模式下,首先使用VLM枚举所有可能的谓词真值以生成初始计划,然后在每个动作执行前后验证前提条件和效果。在VLM-as-planner模式下,VLM直接根据当前状态图像和目标描述生成完整的动作序列。数据集提供了详细的评估指标,包括任务成功率和单个谓词预测准确率。使用时需注意,ViPlan-HH中的部分可观察性可能需要额外的特权信息,而ViPlan-BW则假设动作执行是完美的。
背景与挑战
背景概述
ViPlan是由Aalto University、Fondazione Bruno Kessler和Università degli Studi di Padova的研究团队于2025年推出的首个开源视觉规划基准测试,专注于评估视觉语言模型(VLMs)在符号谓词和视觉规划任务中的表现。该数据集包含两个主要领域:经典Blocksworld规划问题的视觉变体ViPlan-BW和模拟家庭机器人环境ViPlan-HH,旨在解决视觉与符号规划整合的共性挑战。ViPlan的创建填补了当前缺乏统一评估环境和协议的研究空白,为比较不同VLM在规划任务中的性能提供了标准化平台,对推动具身智能和机器人任务规划领域的发展具有重要意义。
当前挑战
ViPlan面临的挑战主要体现在两个方面:领域问题方面,需解决视觉符号整合中谓词 grounding 的精确性难题(如物体关系识别)和长序列决策中的错误累积问题;构建过程方面,需处理视觉观察与符号状态的对齐复杂性(特别是部分可观测场景)、多模态数据融合的技术瓶颈,以及确保评估协议在动态环境中的鲁棒性。具体而言,ViPlan-BW要求模型精确感知抽象空间关系,而ViPlan-HH则需要结合常识推理处理开放世界的模糊性,这对当前VLMs的视觉推理和世界建模能力提出了严峻考验。
常用场景
经典使用场景
ViPlan数据集在视觉规划领域中被广泛应用于评估视觉语言模型(VLMs)在符号谓词和视觉规划任务中的表现。该数据集通过模拟经典的Blocksworld规划问题和家庭机器人环境,为研究者提供了一个动态评估平台,用于比较VLM作为规划器和VLM作为符号规划器的接地器两种方法的性能。
解决学术问题
ViPlan数据集解决了当前视觉语言模型在规划任务中缺乏统一评估标准的问题。通过提供两个具有不同挑战性的领域(ViPlan-BW和ViPlan-HH),该数据集能够评估模型在抽象规划和现实世界规划任务中的表现。此外,ViPlan还揭示了当前VLMs在视觉推理和错误恢复能力上的局限性,为未来研究提供了方向。
实际应用
在实际应用中,ViPlan数据集可被用于开发更可靠的机器人规划系统。例如,在家庭服务机器人领域,基于ViPlan-HH训练的模型能够更好地完成物品整理、清洁等任务。而在工业自动化领域,ViPlan-BW的评估结果可帮助优化基于视觉的块状物体排列系统。
数据集最近研究
最新研究方向
ViPlan数据集作为首个专注于视觉规划与符号谓词结合的开放基准,近期研究主要围绕视觉语言模型(VLMs)在符号规划中的 grounding 能力和直接规划能力的对比展开。在视觉 Blocksworld 和家庭机器人两大领域中,研究发现符号规划在需要精确图像 grounding 的抽象任务(如积木排列)中表现优异,而在依赖常识推理的家庭场景中直接规划更具优势。当前热点聚焦于探索 VLMs 的 emergent world modeling 能力如何弥补符号系统在开放世界中的感知缺陷,以及如何通过动态评估框架解决传统基准无法捕捉的序列决策误差累积问题。该数据集的意义在于为多模态大模型的规划能力评估提供了标准化测试平台,揭示了当前 VLMs 在视觉推理和状态追踪方面的核心瓶颈,特别是发现思维链提示对多数模型性能提升有限的突破性现象,为下一代具身智能系统的架构设计提供了关键实证依据。
相关研究论文
- 1ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language ModelsAalto大学计算机科学系, 布鲁诺·凯斯勒基金会, 帕多瓦大学数学系 · 2025年
以上内容由遇见数据集搜集并总结生成



