five

GameQA-140K

收藏
github2025-06-04 更新2025-06-05 收录
下载链接:
https://github.com/tongjingqi/Code2Logic
下载链接
链接失效反馈
官方服务:
资源简介:
GameQA数据集将游戏任务转化为视觉问答格式,涵盖了30种不同的游戏,分为4类基于解决游戏任务所需的核心能力。数据集中的样本也进行了合理分级。

The GameQA dataset transforms game tasks into visual question answering format, encompassing 30 different games categorized into 4 classes based on the core abilities required to solve the game tasks. The samples in the dataset are also reasonably graded.
创建时间:
2025-05-16
原始信息汇总

Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning

数据集概述

  • 名称: GameQA-140K
  • 用途: 用于增强视觉语言模型(VLMs)的通用推理能力
  • 特点: 首个利用游戏代码合成多模态推理数据的工作
  • 数据规模: 140K样本
  • 游戏数量: 30种不同游戏
  • 数据合成方法: Code2Logic方法

数据集特点

  1. 数据生成方法:

    • 通过游戏代码映射到多模态推理逻辑
    • 使用LLM构建游戏代码和数据引擎
    • 通过代码执行填充QA模板生成数据样本
  2. 数据分类:

    • 4个核心能力类别:
      • 3D空间感知与理解
      • 模式识别与匹配
      • 多步推理
      • 战略规划
    • 每个类别包含多个游戏实例
  3. 数据质量:

    • 包含详细推理过程
    • 样本难度分级合理

数据集内容

  • 游戏示例:

    • 3D空间感知: 3D迷宫、魔方、3D重建
    • 模式识别: 七巧板、空当接龙、俄罗斯方块
    • 多步推理: 兰顿蚂蚁、2D图灵机、单词搜索
    • 战略规划: 推箱子、迷宫、井字棋
  • 数据格式:

    • 将游戏任务转化为视觉问答(VQA)格式
    • 每个游戏目录包含:
      • 代码
      • README文件(描述游戏任务和执行说明)
      • 示例样本子目录

相关资源

  • 论文: https://arxiv.org/abs/2505.13886
  • 数据集: https://huggingface.co/datasets/Gabriel166/GameQA-140K
  • 预训练模型:
    • GameQA-InternVL3-8B: https://huggingface.co/Code2Logic/GameQA-InternVL3-8B
    • GameQA-Qwen2.5-VL-7B: https://huggingface.co/Code2Logic/GameQA-Qwen2.5-VL-7B
    • GameQA-LLaVA-OV-7B: https://huggingface.co/Code2Logic/GameQA-llava-onevision-qwen2-7b-ov-hf

未来计划

  • 构建项目网页
  • 发布使用GameQA训练和评估VLMs的代码
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型(VLMs)研究领域,GameQA-140K数据集通过创新的Code2Logic方法构建而成。该方法巧妙利用游戏代码中蕴含的状态转换逻辑和因果推理链,借助大型语言模型(LLMs)生成游戏代码框架,并设计精细化问答模板。通过代码执行时的数据引擎动态填充模板,系统性地将代码语义映射为多模态推理逻辑,最终生成包含详细推理过程的大规模数据样本。数据集覆盖30款不同类型游戏,每款游戏均设有独立代码库和样本生成机制。
使用方法
该数据集主要服务于视觉语言模型的训练与评估场景。研究者可通过Hugging Face平台直接获取预构建的14万样本,也可利用开源代码库针对特定游戏生成定制化数据。每个游戏目录均配备详细说明文档和执行指南,支持样本扩增和模板修改。实践应用中,建议结合论文提出的GRPO训练策略,将游戏任务转化为视觉问答形式进行模型微调。数据集配套发布的InternVL3-8B等预训练模型,可作为性能提升的参照基线。
背景与挑战
背景概述
GameQA-140K数据集是视觉语言模型(VLMs)领域的一项创新性成果,由Gabriel166团队于2024年提出。该数据集通过Code2Logic方法,首次利用游戏代码生成多模态推理数据,旨在解决VLMs在复杂视觉推理任务中的性能瓶颈。数据集涵盖30种不同类型的游戏,分为空间感知、模式识别、多步推理和战略规划四大类,为VLMs的训练和评估提供了丰富多样的场景。GameQA-140K的推出显著提升了开源模型在跨领域泛化能力上的表现,为多模态推理研究开辟了新途径。
当前挑战
GameQA-140K面临的挑战主要体现在两个方面:领域问题的复杂性和数据构建的技术难度。在领域问题方面,如何让VLMs准确理解游戏代码中的状态转换逻辑和因果推理链,并应用于实际视觉问答任务,是一个亟待解决的难题。在数据构建过程中,需要克服游戏代码语义到多模态推理逻辑的系统映射、大规模高质量数据样本的生成,以及不同游戏类别间的平衡性等挑战。此外,确保生成数据的多样性和真实性,避免过拟合特定游戏场景,也是构建过程中需要重点考虑的问题。
常用场景
经典使用场景
在视觉语言模型(VLMs)的研究领域,GameQA-140K数据集通过游戏代码驱动的多模态推理数据合成,为模型训练提供了丰富且多样化的场景。该数据集覆盖30种不同游戏,涵盖空间感知、模式识别、多步推理和战略规划四大核心能力,成为评估和提升VLMs复杂推理能力的基准工具。研究者可利用其分级数据样本,系统性探索模型在跨域泛化中的表现。
解决学术问题
GameQA-140K有效解决了多模态推理数据稀缺的核心学术难题。传统数据集往往局限于简单问答任务,而该数据集通过Code2Logic方法将游戏代码语义映射为推理逻辑链,生成了包含详细推理过程的大规模样本。这一创新使得VLMs在3D空间理解、模式匹配等复杂任务中的性能提升成为可能,并为研究模型泛化能力提供了标准化评估框架。
实际应用
该数据集已成功应用于多个开源VLMs的增强训练,如InternVL3-8B和Qwen2.5-VL-7B等模型。在实际部署中,经GameQA训练的模型展现出优异的跨领域迁移能力,可适配游戏AI、智能教育工具等需要复杂视觉推理的场景。游戏开发者亦可利用其代码生成框架,快速构建特定领域的训练数据。
数据集最近研究
最新研究方向
在视觉语言模型(VLMs)领域,GameQA-140K数据集的研究正聚焦于如何通过游戏代码驱动的数据合成方法提升模型的泛化推理能力。该数据集利用游戏代码中蕴含的状态转换逻辑和因果推理链,通过Code2Logic方法将代码语义系统性地映射为多模态推理逻辑,生成了涵盖30种不同游戏的14万条高质量样本。这一创新不仅填补了复杂视觉推理任务中高质量数据稀缺的空白,更通过GRPO训练策略显著提升了开源模型在域外任务中的表现。当前研究热点集中在探索游戏代码与多模态推理之间的深层关联,以及如何将这种数据合成范式拓展至更广泛的认知任务场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作