GAMEPLAYQA
收藏arXiv2026-03-25 更新2026-03-27 收录
下载链接:
https://hats-ict.github.io/gameplayqa/
下载链接
链接失效反馈官方服务:
资源简介:
GAMEPLAYQA是由南加州大学团队开发的面向3D虚拟智能体决策密集场景的多视频理解评测框架,包含9款多人在线游戏的同步多视角标注视频。数据集以1.22标签/秒的密度标注了智能体状态、动作及环境事件,形成2.4K个诊断性QA对,涵盖基础感知、时序推理和跨视频理解三个认知层级。通过结构化干扰项分类体系,该数据集可精准分析模型在快速决策、多智能体建模和时空 grounding 方面的幻觉现象,为具身AI和世界建模研究提供关键评估工具。
GAMEPLAYQA is a multi-video understanding evaluation framework developed by a team from the University of Southern California, designed for decision-dense scenarios involving 3D virtual intelligent agents. It includes synchronously multi-view annotated videos from 9 multiplayer online games. The dataset annotates agent states, actions and environmental events at a density of 1.22 labels per second, generating 2.4K diagnostic QA pairs that cover three cognitive levels: basic perception, temporal reasoning, and cross-video understanding. Equipped with a structured distractor classification system, this dataset can precisely analyze model hallucinations in rapid decision-making, multi-agent modeling and spatial-temporal grounding, serving as a critical evaluation tool for embodied AI and world modeling research.
提供机构:
南加州大学
创建时间:
2026-03-25
搜集汇总
数据集介绍

构建方式
在三维虚拟环境感知研究领域,GAMEPLAYQA数据集的构建采用了系统化的多阶段流程。其核心基于从九款多人在线商业游戏中采集的同步多视角游戏录像,通过人工与模型协同的密集时间线标注机制。具体而言,研究团队首先利用Gemini-3-Pro模型生成初步的实体标签与干扰项候选,随后由经过训练的人类标注员进行精细校验与修正,最终形成围绕“自我-其他-世界”三元实体分解框架的结构化标注体系。该流程以约每秒1.22个标签的决策密度,对视频中的智能体状态、动作及环境事件进行时间同步的并发描述,为后续诊断性问答对的生成奠定了精确的时空基础。
特点
GAMPLAYQA数据集的核心特征体现在其面向智能体中心感知的层次化评估体系与精细化的错误诊断能力。数据集将2.4K个问答对组织为三个认知层级:单参考感知、时序推理与跨视频理解,系统性地评估模型从基础识别到复杂时空关联的能力。其创新性在于引入了一个结构化的干扰项分类法,将错误选项划分为词汇、场景、时序、角色与跨视频等类型,从而能够精准定位模型产生幻觉的具体模式,例如是时序错位还是智能体归属混淆。这种设计使得该基准不仅能衡量整体性能,更能深入剖析多模态大语言模型在密集决策、多智能体交互场景下的根本性缺陷。
使用方法
GAMEPLAYQA数据集的使用旨在为多模态大语言模型在具身智能与多智能体环境中的感知与推理能力提供标准化、可诊断的评估。研究者可将模型在零样本设置下,输入完整的同步视频或采样帧序列,要求其回答涵盖三个认知层级的多种选择题。通过分析模型在不同实体类型、任务类别及干扰项上的准确率,能够系统评估其在密集状态追踪、其他智能体建模、跨视角时序对齐等方面的表现。该框架支持可复现的评估流程,其模块化设计也便于扩展至新的游戏领域乃至自动驾驶、协作机器人等现实世界场景,推动模型在动态、多主体环境中的可靠感知研究。
背景与挑战
背景概述
GAMEPLAYQA是由南加州大学研究团队于2026年提出的一个基准测试框架,旨在评估多模态大语言模型在三维虚拟环境中作为自主智能体感知核心的能力。该数据集聚焦于决策密集、第一人称视角同步的多视频理解,通过标注九款多人三维游戏的高频状态转换与多智能体行为,构建了以自我、其他智能体及世界环境为核心的三元实体分解体系。其核心研究问题在于解决现有视频理解基准在体现智能体感知、密集决策追踪及跨视频同步推理方面的不足,为具身人工智能与多智能体建模领域提供了关键的评估工具。
当前挑战
GAMEPLAYQA所针对的领域挑战在于评估模型在快速状态转换、多智能体行为归因及跨视角时间同步等复杂场景下的感知与推理能力。构建过程中的挑战主要包括:在决策密集的游戏环境中实现高频标签标注,平均每秒需处理约1.22个标签,对标注的时序精度与语义一致性提出极高要求;同时,为确保多视角视频的严格时间同步,需从不同流媒体平台手动对齐同一局对战的多路录像,并设计结构化干扰项分类法以精准诊断模型幻觉来源,如时间错位、角色混淆及跨视频理解错误等。
常用场景
经典使用场景
在具身智能与多模态大模型的研究领域,GAMEPLAYQA数据集被广泛用于评估模型在决策密集、多智能体交互的3D虚拟环境中的感知与推理能力。其最经典的使用场景是作为基准测试工具,系统性地诊断模型在同步多视角视频理解任务上的表现。研究者利用其精心构建的三级认知复杂度问题(从基础感知到跨视频时序推理),对前沿多模态大模型进行零样本评估,从而揭示模型在快速状态转换、智能体角色归因和长时程时序定位等方面的能力边界。
解决学术问题
GAMEPLAYQA核心解决了现有视频理解基准在评估智能体中心感知能力上的关键缺陷。传统基准多关注被动场景描述,缺乏对高频率状态转换、密集决策循环以及多智能体并发行为的评估。该数据集通过引入基于“自我-他者-世界”三元分解的密集标注框架,以及结构化的幻觉诱导干扰项分类法,为学术界提供了可诊断模型失败根源的工具。它使得研究者能够精确分析模型在时序错位、跨视频同步和角色混淆等具体问题上的表现,推动了具身AI、智能体感知与世界建模交叉领域的可解释性研究。
衍生相关工作
GAMEPLAYQA的发布催生了一系列围绕密集决策环境视频理解的研究。其核心的“自我-他者-世界”实体分解框架与结构化干扰项分类法,被后续工作借鉴用于构建更细粒度的幻觉诊断基准。数据集所凸显的模型在“他者”建模与跨视频时序推理上的短板,直接激励了针对多智能体行为预测、长视频时序关系建模等方向的算法改进。此外,其端到端的基准构建流程(从标注协议到自动化问题生成)也为其他领域(如真实世界第一人称视频)创建类似诊断性评估集提供了可复现的蓝本与灵感。
以上内容由遇见数据集搜集并总结生成



