FlashAdventure

Name: FlashAdventure
Creator: 首尔国立大学
Published: 2025-09-01 09:33:16
License: 暂无描述

arXiv2025-09-01 更新2025-09-05 收录

下载链接：

https://ahr.g1iiutIashadventure

下载链接

链接失效反馈

官方服务：

资源简介：

FlashAdventure 是一个包含 34 个 Flash 基于经典冒险游戏的数据集，旨在评估 GUI 代理解决完整故事弧的能力。该数据集支持使用 CUA-as-a-Judge 自动评估 GUI 代理的游戏玩法，并强调完成完整故事弧。FlashAdventure 提供了丰富的游戏类型，包括神秘/侦探、隐藏对象、房间逃脱、视觉小说和生活/管理模拟等，并具有高度的可玩性和挑战性。该数据集的创建过程包括游戏选择、人类游戏玩法和评估指标的定义等。FlashAdventure 旨在解决 GUI 代理在解决完整故事弧方面存在的观察行为差距问题，并为 GUI 代理的研究和应用提供重要的数据支持。

FlashAdventure is a dataset consisting of 34 classic Flash-based adventure games, designed to evaluate the capability of GUI Agents to complete full story arcs. This dataset enables automated evaluation of GUI Agents' gameplay through the CUA-as-a-Judge framework, with a particular emphasis on full story arc completion. FlashAdventure features a diverse array of game genres, including mystery/detective, hidden object, room escape, visual novel, and life/management simulation games, and boasts high playability and challenging gameplay. The development process of FlashAdventure encompasses game selection, collection of human gameplay data, and definition of evaluation metrics, among other steps. FlashAdventure aims to address the observed behavioral gaps in GUI Agents' performance when tackling full story arcs, and provides critical data support for both research and practical applications of GUI Agents.

提供机构：

首尔国立大学

创建时间：

2025-09-01

搜集汇总

数据集介绍

构建方式

FlashAdventure数据集通过精心筛选34款基于Flash的经典冒险游戏构建而成，涵盖神秘侦探、隐藏物品、密室逃脱、视觉小说和模拟管理五大子类型。构建过程严格遵循三项标准：选择免费可玩且叙事完整的游戏，确保每款游戏侧重推理而非反应速度，并验证人类通关攻略与明确进度里程碑的存在。数据集采用部分可观测马尔可夫决策过程（POMDP）框架，定义低层级GUI交互动作空间，并通过人类玩家测试验证游戏复杂度与可行性，平均通关步数达1142步，凸显其挑战性。

使用方法

使用FlashAdventure时，研究者需通过屏幕截图输入感知游戏状态，并输出鼠标点击、键盘输入等低层级动作序列。评估采用三项核心指标：故事完成成功率、里程碑完成率与步骤效率。为应对长程依赖挑战，可集成COAST等框架，通过线索记忆模块主动收集环境信息、生成子任务假设并执行多步规划。自动化评估器CUA-as-a-Judge可根据游戏最终状态主动交互验证里程碑，支持无需人工干预的大规模实验，但需注意其暂不适用于快节奏动作类游戏。

背景与挑战

背景概述

FlashAdventure数据集由首尔国立大学与KRAFTON等机构于2025年联合创建，旨在评估基于大语言模型的GUI智能体在冒险游戏中的完整剧情通关能力。该数据集涵盖34款Flash冒险游戏，涉及解谜、侦探、密室逃脱等子类型，通过构建自包含的叙事弧与长期观察-行为间隙挑战，填补了现有游戏基准在任务多样性与完整剧情评估方面的空白。其创新性体现于对智能体记忆能力、多步推理及跨场景规划的严格测试，为GUI智能体的通用性研究提供了重要实验平台。

当前挑战

领域挑战集中于解决智能体在复杂叙事驱动环境中完成完整剧情线的能力，包括长期依赖关系管理、非标准界面感知及横向思维缺失问题。构建挑战涉及游戏筛选标准制定，需平衡子类型多样性、剧情紧凑性与评估可行性；同时需设计自动化评估框架CUA-as-a-Judge以替代人工标注，并克服Flash游戏兼容性、里程碑定义一致性及跨游戏性能可比性等技术障碍。

常用场景

经典使用场景

在图形用户界面智能体研究领域，FlashAdventure数据集被广泛用于评估智能体在叙事驱动型冒险游戏中的长程推理能力。该数据集通过34款Flash冒险游戏构建的完整故事弧任务，要求智能体从初始状态逐步解决谜题、管理物品库存并进行多轮对话，最终达成故事结局。其经典使用场景包括测试智能体在非标准界面布局下的视觉感知能力、跨时间步长的线索关联能力以及基于叙事的序列决策能力，为GUI智能体的长期记忆与规划机制研究提供标准化测试环境。

解决学术问题

FlashAdventure有效解决了冒险游戏智能体研究中的三大核心问题：一是填补了现有基准在完整故事弧评估上的空白，通过定义明确的进度里程碑取代片段化任务评估；二是针对观察-行为间隙（observation-behavior gap）这一关键挑战，提供了量化长时依赖关系的实验框架；三是突破了传统基准的游戏类型局限性，通过涵盖侦探解谜、密室逃脱、视觉小说等多元子类型，为智能体的泛化能力评估建立了新标准。该数据集推动了GUI智能体在叙事理解、线索关联和长期规划方面的理论基础构建。

实际应用

在实际应用层面，FlashAdventure为游戏智能化测试提供了高效验证平台。游戏开发商可利用该基准自动化测试剧情逻辑的完整性，检测游戏任务链中的设计漏洞。教育科技领域则借助其叙事推理特性开发沉浸式学习系统，训练学生的逻辑思维与问题解决能力。此外，该数据集支撑的GUI智能体技术可应用于无障碍交互系统，帮助行动障碍用户通过自然语言指令操作复杂软件界面，其多模态交互范式更为智能助手在操作系统导航、网页操作等实际场景的落地提供了技术验证基础。

数据集最近研究