GameQA-5K

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/Code2Logic/GameQA-5K

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是从GameQA-140K数据集中提取的5k训练样本，用于通过Code2Logic方法增强视觉语言模型(VLMs)的泛化推理能力。这些样本专门用于游戏代码驱动的数据合成，以提高模型在游戏相关任务上的表现。

创建时间：

2025-06-15

搜集汇总

数据集介绍

构建方式

GameQA-5K数据集作为GameQA-140K的子集，其构建过程体现了创新性的数据合成方法。研究团队首次提出Code2Logic技术框架，通过解析游戏源代码自动生成多模态推理数据，将游戏内逻辑规则转化为视觉-语言联合表征。该数据集包含5000个训练样本，每个样本均经过严格的代码驱动验证流程，确保问题-图像-答案三元组在语义和逻辑上的一致性。

特点

该数据集最显著的特点在于其独特的游戏代码衍生特性，使得生成的问题具有丰富的逻辑推理层次。相较于传统人工标注数据集，GameQA-5K通过程序化方式实现了问题类型的系统化覆盖，包含空间推理、时序分析和因果推断等多种认知维度。实验证明，仅使用该5K规模数据进行训练，就能使多个前沿视觉语言模型在跨领域基准测试中获得显著性能提升。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集进行模型微调，建议配合论文提出的GRPO训练策略使用。数据集采用标准的图像-问题-答案三元组格式，兼容主流视觉语言模型的输入规范。为充分发挥数据优势，建议将样本中的游戏截图与生成的问题文本联合编码，重点关注模型对隐含游戏逻辑的推理能力培养。相关训练代码已在GitHub开源，包含完整的数据加载和预处理流程。

背景与挑战

背景概述

GameQA-5K数据集作为GameQA-140K的子集，由Gabriel166团队于2024年提出，旨在通过游戏代码驱动的数据合成方法增强视觉语言模型（VLMs）的通用推理能力。该数据集源自Code2Logic研究项目，首次创新性地利用游戏代码生成多模态推理训练数据，相关成果发表于计算机视觉与自然语言处理交叉领域。其核心价值在于验证了合成数据对提升模型跨领域泛化能力的显著效果，为小样本学习场景下VLMs的训练提供了新范式。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决视觉问答任务中复杂逻辑推理与多模态对齐的难题，特别是游戏场景特有的动态视觉元素与非结构化文本的语义关联；在构建过程中，数据合成环节涉及游戏代码到多模态样本的精确转换，既要保证生成问题的逻辑严谨性，又要维持视觉内容与文本问题的一致性。此外，5K精选样本需在有限数据量下实现优于8K人工标注数据集的效果，对数据质量与分布平衡性提出极高要求。

常用场景

经典使用场景

在视觉语言模型（VLM）的研究领域，GameQA-5K数据集被广泛应用于训练和评估模型的多模态推理能力。通过结合游戏代码生成的合成数据，该数据集为模型提供了丰富的视觉和文本交互场景，使其能够更好地理解和推理复杂的多模态信息。经典使用场景包括模型在零样本或少样本条件下的跨领域泛化能力测试，以及在开放域问答任务中的表现评估。

解决学术问题

GameQA-5K数据集解决了视觉语言模型在通用推理任务中数据稀缺和多样性不足的问题。通过利用游戏代码合成的多模态数据，该数据集为模型训练提供了高质量且多样化的样本，显著提升了模型在未见领域的泛化性能。其意义在于为多模态推理研究提供了新的数据合成范式，推动了视觉语言模型在复杂场景下的应用边界。

衍生相关工作

围绕GameQA-5K数据集，研究者们开发了多个经典的视觉语言模型，如GameQA-InternVL3-8B、GameQA-Qwen2.5-VL-7B和GameQA-LLaVA-OV-7B。这些模型通过GRPO训练策略在通用视觉基准测试中表现出色，进一步验证了数据集的有效性。相关研究还探索了游戏代码驱动数据合成在多模态任务中的潜力，为后续工作提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集