V-MAGE
收藏arXiv2025-04-08 更新2025-04-10 收录
下载链接:
https://github.com/CSU-JPG/V-MAGE
下载链接
链接失效反馈官方服务:
资源简介:
V-MAGE是由南京大学等机构创建的一个游戏评估框架,旨在评估多模态大型语言模型(MLLMs)的视觉推理能力。该数据集包含5款不同游戏,超过30个手动设计的关卡,测试模型在定位、轨迹跟踪、计时、视觉记忆等核心视觉技能,以及长期规划、推理等更高级的推理能力。V-MAGE利用视频游戏环境的丰富视觉数据,为评估MLLMs的视觉推理和决策能力提供了一个更加现实、交互性强、视觉丰富的评估框架。
提供机构:
南京大学, 中国
创建时间:
2025-04-08
搜集汇总
数据集介绍

构建方式
V-MAGE数据集的构建基于五个精心挑选的视频游戏环境,每个游戏包含30多个手工设计的关卡,旨在全面评估多模态大语言模型(MLLMs)的视觉感知和推理能力。数据集的构建过程包括游戏选择、关卡设计以及评估管道的搭建。游戏选择遵循视觉输入传达游戏状态、自由形式或连续空间环境以及可定制关卡的原则。每个游戏的关卡设计通过逐步增加复杂性,模拟人类学习曲线,系统地暴露模型的弱点。评估管道采用动态Elo评分系统,通过多轮随机配对比较,迭代优化模型的相对能力。
特点
V-MAGE数据集的特点在于其视觉中心性、灵活的游戏玩法、细粒度的技能评估以及可扩展的评估框架。数据集仅提供视觉输入,要求模型进行像素级场景理解、对象跟踪和时空推理。与基于网格的基准测试不同,V-MAGE采用连续空间环境,允许模型探索几乎无限的状态空间。每个游戏针对不同的技能维度设计了不同难度的关卡,如障碍物、加速度、第一人称与地图视图挑战。此外,V-MAGE的评估框架不仅限于模型评估,还包括对当前最先进MLLMs范围之外的代理技能的评估。
使用方法
V-MAGE数据集的使用方法包括模型评估和代理策略优化。在模型评估中,数据集通过游戏模块、代理模块和模型输出与执行模块的交互,模拟人类玩家的游戏过程。模型接收游戏状态的视觉输入,并基于其对视觉状态的理解生成实时响应。评估过程中,模型的表现通过动态Elo评分系统进行比较和排名。研究人员还可以通过自定义代理策略,探索不同的输入构造和推理历史管理方法,以优化模型在动态视觉环境中的表现。数据集的使用旨在推动多模态智能的未来发展,指导开发能够在复杂环境中进行稳健视觉推理和决策的模型。
背景与挑战
背景概述
V-MAGE(Visual-centric Multiple Abilities Game Evaluation)是由南京大学、微软美国和中南大学的研究团队于2025年提出的一个多模态大语言模型(MLLMs)评估框架,旨在通过游戏环境评估模型在视觉感知和推理方面的核心能力。该数据集包含五个不同游戏(如FlappyBird、RaceGame等)的30多个手工设计关卡,测试模型在定位、轨迹跟踪、时序判断和视觉记忆等基础视觉技能,以及长期规划和审慎思考等高阶推理能力。V-MAGE的推出填补了当前动态开放环境评估的空白,推动了多模态智能体在复杂交互任务中的研究进展。
当前挑战
V-MAGE针对两大挑战展开:1) 领域问题层面,现有游戏基准多依赖文本或网格环境,难以评估MLLMs在连续空间中的实时视觉推理能力,而V-MAGE通过像素级输入和自由形式游戏设计,要求模型处理真实世界决策所需的时空动态复杂性;2) 构建过程中,需解决游戏状态纯视觉表征的难题(如避免模型将画面转为文本作弊),并设计可扩展的Elo评分系统以动态衡量模型在异构任务中的表现。实验表明,顶级MLLMs在复合挑战关卡中性能骤降,其视觉错误率较人类玩家高出一个数量级,凸显动态环境推理的严峻挑战。
常用场景
经典使用场景
V-MAGE数据集通过五个精心设计的游戏环境(如FlappyBird、RaceGame等)及其30多个手工制作的关卡,为多模态大语言模型(MLLMs)的视觉推理能力提供了全面的评估框架。这些游戏环境模拟了真实世界的动态交互场景,要求模型在连续空间中进行像素级场景理解、对象跟踪和时空推理。V-MAGE的经典使用场景包括测试模型在定位、轨迹跟踪、时机判断和视觉记忆等核心视觉技能上的表现,以及评估其在长期规划和深思熟虑等高级推理任务中的能力。
实际应用
V-MAGE数据集的实际应用场景广泛,包括但不限于智能游戏代理的开发、机器人视觉导航系统的测试以及虚拟助手在动态环境中的交互能力评估。例如,在游戏开发中,V-MAGE可以用于测试AI代理在复杂游戏环境中的表现;在机器人领域,它可以评估机器人在实时感知和决策任务中的视觉推理能力。此外,V-MAGE的灵活性和可扩展性使其能够适应未来新兴的多模态任务,为实际应用提供持续的评估支持。
衍生相关工作
V-MAGE数据集衍生了一系列相关研究和工作,主要集中在多模态大语言模型的视觉推理能力提升和代理策略优化上。例如,研究者利用V-MAGE评估了InternVL2.5-78B和GPT-4o等先进模型在动态游戏环境中的表现,并发现了其在视觉感知和推理中的关键缺陷。此外,V-MAGE的评估框架还被用于研究代理策略的设计,如如何优化代理的历史信息处理和动作选择机制。这些工作不仅推动了多模态模型的发展,还为视觉交互能力的提升提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



