GameQA

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/Gabriel166/GameQA

下载链接

链接失效反馈

官方服务：

资源简介：

GameQA是一个大规模的视觉语言问答（VQA）数据集，专为游戏设计。它将多种游戏任务整合到视觉问答框架中，每个样本包含一个游戏屏幕和一个相关问题。答案包括逐步推理和一个最终答案，可以是选择题或填空题格式。数据集具有高度的可扩展性和成本效益，难度具有挑战性且分级明确，同时具备大规模和多样性。数据集还通过LLM-based推理改写进行数据增强。

GameQA is a large-scale visual-language question answering (VQA) dataset designed specifically for games. It integrates multiple game tasks into the visual question answering framework, where each sample contains a game screen and a related question. The answers consist of step-by-step reasoning and a final answer, which can be in multiple-choice or fill-in-the-blank formats. The dataset features high scalability and cost-effectiveness, with challenging and clearly graded difficulty levels, as well as large scale and diversity. Additionally, the dataset implements data augmentation via LLM-based reasoning rewriting.

创建时间：

2025-05-10

原始信息汇总

GameQA数据集概述

基本信息

许可证: Apache-2.0
语言: 英语
标签: VQA, 游戏AI, 视觉问答, 自然语言处理
规模: 100K<n<1M

数据集简介

GameQA是一个专为游戏设计的大规模视觉语言问答(VQA)数据集。该数据集将多种游戏任务统一到视觉问答框架中，每个样本包含一个游戏画面（通常代表中间游戏状态）和对应的问题。答案包括逐步推理和最终答案，形式为多选题或填空题。

关键特性

可扩展性与成本效益
生成框架建立后，可以零边际成本创建无限样本。
挑战性与分级难度
所有SOTA模型的准确率低于70%。
每个任务类型分为3级图像复杂度×3级问题复杂度=共9级。
规模与多样性
包含30种游戏、158种任务类型和30,000+问题。

核心推理能力

能力	示例游戏	描述
3D空间感知与推理	3D重建	从2D侧视图重建3D结构
模式识别与匹配	七巧板	基于视觉模式匹配形状或颜色
多步推理	数独	在规则和约束下逐步推理
策略规划	推箱子	优化游戏中的决策和路径规划

数据增强

应用基于LLM的推理转述以多样化推理风格并防止过拟合。所有增强样本通过构建的流程处理以确保逻辑正确性和表达清晰度。

数据集统计

类别	值
游戏数量	30
任务类型数量	158
总问题数	30,000+
问题类型	多选题, 填空题

未来开源计划

✅ 完成30款游戏的完整数据集及数据增强后的数据集开源
🛠️ 计划/进行中的数据增强框架开源
🛠️ 计划/进行中的30款游戏生成完整代码文件开源

引用

bibtex @misc{yourname_gameqa_2023, title={GameQA: A Game-Specific Visual Question Answering Dataset}, author={Your Name and Co-authors}, year={2023}, eprint={arXiv:xxxx.xxxxx}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

GameQA数据集的构建立足于游戏领域的视觉问答任务，通过整合多样化的游戏场景与任务类型，构建了一个统一的视觉问答框架。该数据集以游戏屏幕截图作为视觉输入，结合对应的自然语言问题，生成包含逐步推理过程和最终答案的样本。答案形式涵盖多项选择和填空题，确保了数据形式的多样性。数据增强方面，采用基于大语言模型的推理改写技术，以提升推理风格的多样性并防止过拟合。

使用方法

GameQA数据集适用于视觉问答、游戏人工智能及自然语言处理领域的研究。使用时需加载游戏屏幕图像与对应问题，模型需生成包含推理过程的答案。数据集支持多项选择与填空两种评估模式，研究者可根据需求选择相应任务类型进行实验。对于数据增强部分，建议结合原始样本与增强样本进行训练，以提升模型的泛化能力。数据集的引用需遵循提供的BibTeX格式，以确保学术规范性。

背景与挑战

背景概述

GameQA数据集是2023年推出的一项专注于游戏场景的大规模视觉问答（VQA）数据集，由匿名研究团队构建。该数据集通过将多样化游戏任务统一至视觉问答框架，旨在推动游戏人工智能与多模态推理的交叉研究。其创新性在于融合了30类游戏场景、158种任务类型及3万多个问题样本，涵盖空间感知、模式匹配、多步推理等核心认知能力，为评估模型在复杂交互环境中的表现提供了标准化基准。数据集采用模块化生成框架，支持零边际成本的无限样本扩展，显著提升了研究效率。

当前挑战

GameQA面临的领域挑战主要体现为模型在动态游戏环境中的多模态理解瓶颈，现有顶级模型准确率均低于70%，尤其在处理3D空间推理、跨帧时序分析等复杂任务时表现欠佳。数据构建过程中需克服游戏画面与问题对的高效生成难题，包括平衡9级难度梯度、确保逻辑链标注的精确性，以及通过LLM增强数据多样性时保持语义一致性。此外，不同游戏引擎的画面风格差异对视觉特征的统一表征提出了更高要求。

常用场景

经典使用场景

在游戏人工智能与视觉问答交叉领域，GameQA数据集通过将多样化的游戏任务统一至视觉问答框架，为研究者提供了标准化的评估平台。游戏画面作为中间状态与自然语言问题的组合，有效模拟了游戏环境中智能体需同时处理视觉信息与语义理解的复杂场景，特别适合验证多模态模型在动态环境中的推理能力。

解决学术问题

该数据集解决了游戏AI领域缺乏系统性评估基准的痛点，其涵盖3D空间感知、模式匹配、多步推理等核心能力的细粒度标注，为分析模型在跨游戏泛化性、复杂任务分解等关键问题提供了数据支撑。通过设计9级难度梯度，显著提升了对模型鲁棒性与推理深度的测量精度。

实际应用

在实际游戏开发中，该数据集支持智能NPC对话系统训练，使非玩家角色能基于实时画面理解玩家意图。教育游戏领域可借助其多步推理样本设计认知训练关卡，而增强现实游戏则利用3D空间推理数据优化虚实交互体验，显著提升了人机交互的自然性与沉浸感。

数据集最近研究