LVLM-Playground

github2025-03-03 更新2025-03-11 收录

下载链接：

https://github.com/xinke-wang/LVLM-Playground

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于评估大型视觉语言模型（LVLMs）在游戏任务中的感知、推理和决策能力的基准。

A benchmark for evaluating the perception, reasoning and decision-making capabilities of Large Vision-Language Models (LVLMs) in gaming tasks.

创建时间：

2025-02-27

原始信息汇总

LVLM-Playground 数据集概述

数据集基本信息

名称：LVLM-Playground
用途：评估大型视觉语言模型（LVLMs）在游戏任务中的表现，包括感知、推理和决策能力
包含游戏：国际象棋、五子棋、扫雷、黑白棋、数独、井字棋
数据类型：图像（游戏截图）和标注（JSON格式）
论文：Are Large Vision Language Models Good Game Players?

数据集结构

LVLM-Playground ├── benchmark │ ├── perceive │ │ ├── chess │ │ │ ├── 0000000.jpg │ │ │ ├── 0000001.jpg │ │ │ ├── ... │ │ │ └── annotation.json │ │ ├── gomoku │ │ ├── minesweeper │ │ ├── reversi │ │ ├── sudoku │ │ └── tictactoe │ ├── qa │ └── rule

数据获取方式

预生成数据下载： bash wget https://universityofadelaide.box.com/shared/static/9xx4brpiipqmmyomau2v522frtijx930.zip -O benchmark.zip unzip benchmark.zip -d .
自定义数据生成：通过修改configs/base.py配置文件并运行generate_benchmark.py

实验配置

任务类型：感知（perceive）、问答（qa）、规则理解（rule）、端到端（e2e）
样本量控制：通过sample_size参数调整
输出目录：通过benchmark_path指定

评估与可视化

评估脚本：evaluate.py
可视化工具：plot_radar.py生成雷达图
预训练模型对比：包括GPT-4o、Gemini-1.5pro、Claude-3.5-sonnet等

自定义模型评估

继承BaseAgent类实现自定义模型
在configs/agents目录下创建配置文件
通过AGENT_REGISTRY注册模型

许可与引用

许可证：MIT
引用格式： bibtex @inproceedings{wang2025large, title={Are Large Vision Language Models Good Game Players?}, author={Wang, Xinyu and Zhuang, Bohan and Wu, Qi}, booktitle={International Conference on Learning Representations}, year={2025} }

联系方式

联系人：Xinyu Wang
邮箱：xinyu.wang02@adelaide.edu.au

搜集汇总

数据集介绍

构建方式

LVLM-Playground是一个评估大型视觉语言模型在游戏任务中的表现基准。该数据集通过六个经典游戏来测试模型的感知、推理和决策能力。数据集的构建涉及预生成基准数据以及自定义基准数据的生成，其中包含了游戏界面、搜索型AI实现等多个方面，旨在提供一个全面的评估框架。

特点

该数据集的特点在于，它不仅提供了预生成的基准数据以方便实验的再现，而且允许用户生成自定义的基准数据，以适应不同的模型配置和实验需求。此外，数据集支持多种经典游戏，使得评估结果具有广泛的应用价值。

使用方法

使用LVLM-Playground数据集，用户首先需要准备实验环境，包括克隆仓库、设置conda环境和安装必要的依赖。之后，可以通过下载预生成的数据或生成自定义数据来准备数据集。实验的运行、结果评估和可视化都提供了相应的脚本和工具，用户可以根据需要配置实验参数和模型设置。

背景与挑战

背景概述

LVLM-Playground数据集，发布于2025年，是由澳大利亚阿德莱德大学和浙江大学的研究人员Xinyu Wang、Bohan Zhuang以及Qi Wu共同构建的一个评估大型视觉语言模型在游戏任务中的表现基准。该数据集通过六个经典游戏，全面评估模型在感知、推理和决策制定方面的能力。LVLM-Playground的发布，旨在推动大型视觉语言模型在游戏领域的研究，为相关领域的研究者提供了一个统一的评价标准，对于游戏智能和视觉语言模型的结合研究产生了重要影响。

当前挑战

在构建LVLM-Playground数据集的过程中，研究者们面临了多项挑战。首先，游戏任务的多样性要求模型具备广泛的适应性和强大的泛化能力。其次，数据集的构建需要大量的游戏界面和搜索型AI实现，这对资源的获取和整合提出了挑战。此外，如何确保数据集的质量、公平性和可重复性，也是数据集构建中必须考虑的重要问题。在研究领域问题方面，LVLM-Playground数据集的挑战在于，如何使大型视觉语言模型更好地理解和执行游戏中的复杂策略和决策过程。

常用场景

经典使用场景

LVLM-Playground作为一个评估大型视觉语言模型在游戏任务中的表现基准，其经典使用场景在于对模型进行感知、推理和决策能力的测试。该数据集整合了六款经典游戏，研究者可以通过这一平台对模型进行综合性的评估，以探究模型在不同游戏环境下的表现差异。

解决学术问题

该数据集解决了长期以来在游戏智能领域缺乏统一评估标准的问题，为研究者提供了一个公正、客观的评价体系。通过LVLM-Playground，学术界可以更加系统地分析大型视觉语言模型在不同游戏中的表现，从而推动游戏智能领域的发展，为相关学术研究提供了有力的数据支撑。

衍生相关工作

LVLM-Playground的发布促进了多项相关工作的开展，包括但不限于对现有游戏AI系统的评估、新型游戏智能模型的开发以及跨领域智能应用的探索。这些衍生工作进一步拓宽了视觉语言模型在游戏及其他领域的应用范围，为智能系统的研究和开发提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集