GameQA-140K

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/Gabriel166/GameQA-140K

下载链接

链接失效反馈

官方服务：

资源简介：

GameQA是一个大规模、多样化的多模态推理数据集，旨在提高视觉语言模型(VLMs)的一般推理能力。该数据集利用创新的Code2Logic框架，通过游戏代码合成高质量的视觉-语言链式思维数据。它解决了多模态推理数据的稀缺问题，这对于推进VLMs中的复杂多步骤推理至关重要。每个样本包括视觉游戏状态、针对性问题、逐步推理和最终答案，均源于游戏代码中的逻辑结构。

创建时间：

2025-05-10

搜集汇总

数据集介绍

构建方式

在游戏智能研究领域，GameQA-140K数据集通过创新的Code2Logic框架构建，该方法巧妙利用游戏代码中固有的逻辑结构，自动生成高质量的多模态推理数据。该过程首先从30款独特游戏中提取158种任务模板，涵盖空间感知、模式识别与战略规划等认知维度，继而通过代码驱动合成包含游戏状态图像、针对性问题及链式推理的完整样本。这种基于程序化生成的方式不仅显著降低了数据标注成本，更确保了推理路径与游戏机制间的严格逻辑一致性。

特点

作为面向视觉语言模型进阶推理的基准数据集，GameQA-140K展现出显著的复杂性与多样性特征。其14万组问答对覆盖从基础认知到高阶策略的多层次任务，每项样本均包含视觉场景、多步推理链及最终答案的完整逻辑单元。特别值得注意的是，数据集通过双重难度体系（图像复杂度与任务复杂度）构建了渐进式挑战阶梯，当前顶尖模型在该测试集上不足50%的准确率印证了其设计的严谨性。这种结构化的难度分层为评估模型推理能力提供了精准度量标尺。

使用方法

针对多模态推理模型的开发与评估，该数据集提供了标准化的应用范式。研究者可通过加载游戏状态图像与对应问题文本，要求模型生成包含中间推理步骤的链式思维过程，最终输出确切答案。训练阶段建议使用含12.7万样本的完整训练集，测试时则采用1.5万样本的独立测试集以保障评估公正性。数据集支持多项选择与填空两类应答模式，使用者需注意图像数据需从配套压缩包解压后与JSON标注文件协同加载，确保多模态输入的完整性。

背景与挑战

背景概述

随着多模态人工智能技术的飞速发展，视觉语言模型在复杂推理任务中的表现成为研究焦点。GameQA-140K数据集由研究团队于2024年通过创新性Code2Logic框架构建，旨在解决多模态推理数据稀缺的核心问题。该数据集基于30款独特游戏代码生成14万组视觉问答对，涵盖空间感知、模式识别与战略规划等认知维度，通过嵌入链式思维推理路径，显著提升了模型对游戏场景中多步骤逻辑关系的理解能力，为推进通用人工智能的推理机制研究提供了重要基准。

当前挑战

在视觉问答领域，模型需同时解析动态游戏画面与隐含逻辑规则，当前顶尖视觉语言模型在测试集上准确率不足50%，暴露出处理时空关联与战略推演的固有难点。数据集构建过程中，Code2Logic框架虽能通过游戏代码自动生成数据，但需精确保持视觉场景与逻辑约束的一致性，且需平衡158种任务类型的难度梯度，这对语义对齐与质量验证机制提出了极高要求。

常用场景

经典使用场景

在视觉语言模型的多模态推理研究领域，GameQA-140K数据集作为评估模型复杂推理能力的基准工具，其经典应用场景主要体现在对视觉语言模型进行多步骤逻辑推理的全面评估。该数据集通过融合游戏状态图像与对应的文本问题，要求模型不仅要理解视觉场景中的空间关系，还要进行多层次的认知推理，最终生成包含中间推理步骤的完整答案。这种设计特别适用于测试模型在复杂环境下的推理链构建能力，为研究者提供了系统评估模型认知水平的标准化平台。

衍生相关工作

围绕GameQA-140K数据集已衍生出多个重要的研究方向，其中最具代表性的是基于Code2Logic框架的扩展研究。这些工作探索了如何将游戏代码的逻辑结构更有效地转化为训练数据，并发展了新的多模态推理评估方法。同时，该数据集也催生了针对链式思维推理的模型架构创新，包括专门处理复杂推理链的注意力机制和融合视觉与语言信息的交互模块，为多模态推理领域的技术演进提供了重要推动力。

数据集最近研究