VisEscape

github2025-03-23 更新2025-04-01 收录

下载链接：

https://github.com/pull-ups/VisEscape

下载链接

链接失效反馈

官方服务：

资源简介：

VisEscape是一个包含20个虚拟逃脱房间的基准，专门设计用于评估AI模型在探索驱动决策方面的表现，要求模型不仅要解决孤立的谜题，还要迭代构建和精炼动态变化环境中的时空知识。

VisEscape is a benchmark comprising 20 virtual escape rooms, specifically designed to evaluate the performance of AI models in exploration-driven decision-making. It requires the models to not only solve isolated puzzles, but also iteratively construct and refine spatiotemporal knowledge in dynamically changing environments.

创建时间：

2025-03-20

原始信息汇总

VisEscape 数据集概述

数据集基本信息

名称: VisEscape
开发者: Seungwon Lim, Sungwoong Kim, Jihwan Yu, Sungjae Lee, Jiwan Chung, Youngjae Yu (Yonsei University)
论文链接: arXiv:2503.14427

数据集简介

目的: 评估AI模型在探索驱动决策制定中的表现，特别是在虚拟密室逃脱场景中。
特点:
- 包含20个虚拟密室逃脱场景。
- 强调动态变化环境中的空间-时间知识构建与优化。
- 要求模型不仅解决孤立谜题，还需迭代更新环境知识。

数据集内容

场景数量: 20个虚拟密室逃脱房间。
评估指标:
- 模型逃脱成功率。
- 模型在动态环境中的知识构建能力。

安装与使用

客户端安装:
- 支持Python 3.9。
- 使用Poetry进行依赖管理。
服务器安装:
- 支持Python 3.11。
- 需要CUDA Toolkit >=12.4。
- 使用vLLM 0.7.3进行模型推理。

执行方式

人类玩家:
- 通过python scripts/run_ui.py -r room[room_number]运行。
AI模型:
- 需要启动vLLM服务器。
- 生成图像观察的标题。
- 运行实验并保存结果至./scripts/results/。

实验配置

模型支持:
- 开源模型和闭源模型（如GPT-4o-mini）。
实验参数:
- 房间号、模型名称、实验次数、提示模式（有提示/无提示）、推理模式（vlm/socratic）。

搜集汇总

数据集介绍

构建方式

在虚拟现实与认知科学交叉领域，VisEscape数据集的构建采用了严谨的工程化流程。研究团队基于Unity引擎开发了20个风格迥异的虚拟密室场景，每个场景包含多层级的空间拓扑结构和动态变化的视觉元素。数据集通过程序化生成与人工设计相结合的方式，确保每个房间具有独特的谜题组合和探索路径。数据采集过程采用模块化设计，将玩家行为轨迹、环境状态变化和多模态交互数据以时间戳同步方式记录，形成结构化的事件序列数据库。

使用方法

使用该数据集需遵循标准化的评估协议。研究者首先通过配置脚本启动虚拟环境服务器，选择目标密室场景和评估模式。系统支持两种交互方式：直接调用视觉语言模型的API接口，或通过预生成的场景描述文本进行推理。评估流程自动记录智能体的决策路径、环境状态转换和任务完成度等核心指标。对于进阶研究，数据集提供原始事件流数据接口，允许自定义评估维度和认知建模方法。

背景与挑战

背景概述

VisEscape是由延世大学的研究团队于2024年推出的虚拟密室逃脱基准测试数据集，旨在评估人工智能模型在探索驱动决策任务中的表现。该数据集包含20个精心设计的虚拟密室场景，模拟了真实密室逃脱中所需的认知挑战：要求智能体通过主动环境探索、动态知识更新和线索关联来完成目标。研究团队通过实验发现，即便是当前最先进的多模态模型在该数据集上的表现也远未达到人类水平，这为探索人工智能在复杂环境中的认知能力提供了重要研究平台。VisEscape的推出填补了交互式环境评估基准的空白，对强化学习、多模态理解和认知推理等领域具有重要启示意义。

当前挑战

VisEscape数据集面临的核心挑战体现在两个方面：在领域问题层面，虚拟密室逃脱要求AI系统具备持续的环境探索能力、动态知识整合能力和多步推理能力，这些认知功能正是当前人工智能系统的薄弱环节；在构建技术层面，研究团队需要设计具有足够复杂度且逻辑自洽的密室场景，确保每个房间的谜题系统既能反映真实认知挑战，又保持可评估性。此外，数据集还需支持对模型决策过程的细粒度分析，这要求精心设计交互协议和评估指标，以捕捉模型在探索、记忆和推理等关键维度上的表现差异。

常用场景

经典使用场景

在探索驱动决策研究领域，VisEscape数据集为评估人工智能模型在复杂环境中的动态认知能力提供了标准化测试平台。虚拟密室逃脱场景要求模型通过主动探索、持续学习和线索整合来完成任务，这种设计有效模拟了真实世界中人类解决问题的认知过程，成为多模态模型空间推理和时序决策能力评估的经典范式。

解决学术问题

该数据集解决了人工智能领域探索驱动规划的关键科学问题，特别是针对动态环境中知识迭代构建与优化的挑战。通过20个精心设计的虚拟密室场景，研究者能够系统评估模型在空间-时间认知、多模态信息整合以及持续学习等方面的性能缺陷，为开发具有人类级别环境交互能力的AI系统提供了重要基准。

实际应用

在实际应用层面，VisEscape的评估框架可迁移至智能机器人导航、增强现实交互系统等需要环境探索与实时决策的场景。其提出的Memory-Feedback-ReAct架构已被证明能显著提升智能体在动态环境中的操作效率，为服务机器人、虚拟助手等应用提供了可验证的技术路径。

数据集最近研究