GameQA-140K

github2025-06-04 更新2025-06-05 收录

下载链接：

https://github.com/tongjingqi/Code2Logic

下载链接

链接失效反馈

官方服务：

资源简介：

GameQA数据集将游戏任务转化为视觉问答格式，涵盖了30种不同的游戏，分为4类基于解决游戏任务所需的核心能力。数据集中的样本也进行了合理分级。

The GameQA dataset transforms game tasks into visual question answering format, encompassing 30 different games categorized into 4 classes based on the core abilities required to solve the game tasks. The samples in the dataset are also reasonably graded.

创建时间：

2025-05-16

原始信息汇总

Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning

数据集概述

名称: GameQA-140K
用途: 用于增强视觉语言模型(VLMs)的通用推理能力
特点: 首个利用游戏代码合成多模态推理数据的工作
数据规模: 140K样本
游戏数量: 30种不同游戏
数据合成方法: Code2Logic方法

数据集特点

数据生成方法:
- 通过游戏代码映射到多模态推理逻辑
- 使用LLM构建游戏代码和数据引擎
- 通过代码执行填充QA模板生成数据样本
数据分类:
- 4个核心能力类别:
  - 3D空间感知与理解
  - 模式识别与匹配
  - 多步推理
  - 战略规划
- 每个类别包含多个游戏实例
数据质量:
- 包含详细推理过程
- 样本难度分级合理

数据集内容

游戏示例:
- 3D空间感知: 3D迷宫、魔方、3D重建
- 模式识别: 七巧板、空当接龙、俄罗斯方块
- 多步推理: 兰顿蚂蚁、2D图灵机、单词搜索
- 战略规划: 推箱子、迷宫、井字棋
数据格式:
- 将游戏任务转化为视觉问答(VQA)格式
- 每个游戏目录包含:
  - 代码
  - README文件(描述游戏任务和执行说明)
  - 示例样本子目录

未来计划

构建项目网页
发布使用GameQA训练和评估VLMs的代码

搜集汇总

数据集介绍

构建方式

在视觉语言模型（VLMs）研究领域，GameQA-140K数据集通过创新的Code2Logic方法构建而成。该方法巧妙利用游戏代码中蕴含的状态转换逻辑和因果推理链，借助大型语言模型（LLMs）生成游戏代码框架，并设计精细化问答模板。通过代码执行时的数据引擎动态填充模板，系统性地将代码语义映射为多模态推理逻辑，最终生成包含详细推理过程的大规模数据样本。数据集覆盖30款不同类型游戏，每款游戏均设有独立代码库和样本生成机制。

使用方法

该数据集主要服务于视觉语言模型的训练与评估场景。研究者可通过Hugging Face平台直接获取预构建的14万样本，也可利用开源代码库针对特定游戏生成定制化数据。每个游戏目录均配备详细说明文档和执行指南，支持样本扩增和模板修改。实践应用中，建议结合论文提出的GRPO训练策略，将游戏任务转化为视觉问答形式进行模型微调。数据集配套发布的InternVL3-8B等预训练模型，可作为性能提升的参照基线。

背景与挑战

背景概述

GameQA-140K数据集是视觉语言模型（VLMs）领域的一项创新性成果，由Gabriel166团队于2024年提出。该数据集通过Code2Logic方法，首次利用游戏代码生成多模态推理数据，旨在解决VLMs在复杂视觉推理任务中的性能瓶颈。数据集涵盖30种不同类型的游戏，分为空间感知、模式识别、多步推理和战略规划四大类，为VLMs的训练和评估提供了丰富多样的场景。GameQA-140K的推出显著提升了开源模型在跨领域泛化能力上的表现，为多模态推理研究开辟了新途径。

当前挑战

GameQA-140K面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的技术难度。在领域问题方面，如何让VLMs准确理解游戏代码中的状态转换逻辑和因果推理链，并应用于实际视觉问答任务，是一个亟待解决的难题。在数据构建过程中，需要克服游戏代码语义到多模态推理逻辑的系统映射、大规模高质量数据样本的生成，以及不同游戏类别间的平衡性等挑战。此外，确保生成数据的多样性和真实性，避免过拟合特定游戏场景，也是构建过程中需要重点考虑的问题。

常用场景

经典使用场景

在视觉语言模型（VLMs）的研究领域，GameQA-140K数据集通过游戏代码驱动的多模态推理数据合成，为模型训练提供了丰富且多样化的场景。该数据集覆盖30种不同游戏，涵盖空间感知、模式识别、多步推理和战略规划四大核心能力，成为评估和提升VLMs复杂推理能力的基准工具。研究者可利用其分级数据样本，系统性探索模型在跨域泛化中的表现。

解决学术问题

GameQA-140K有效解决了多模态推理数据稀缺的核心学术难题。传统数据集往往局限于简单问答任务，而该数据集通过Code2Logic方法将游戏代码语义映射为推理逻辑链，生成了包含详细推理过程的大规模样本。这一创新使得VLMs在3D空间理解、模式匹配等复杂任务中的性能提升成为可能，并为研究模型泛化能力提供了标准化评估框架。

实际应用

该数据集已成功应用于多个开源VLMs的增强训练，如InternVL3-8B和Qwen2.5-VL-7B等模型。在实际部署中，经GameQA训练的模型展现出优异的跨领域迁移能力，可适配游戏AI、智能教育工具等需要复杂视觉推理的场景。游戏开发者亦可利用其代码生成框架，快速构建特定领域的训练数据。

数据集最近研究