Action-of-Thought Dataset

Name: Action-of-Thought Dataset
Creator: 阿里巴巴集团
Published: 2025-03-13 00:42:26
License: 暂无描述

arXiv2025-03-13 更新2025-03-14 收录

下载链接：

https://combatvla.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个名为Action-of-Thought的三个阶段的数据集，包括粗粒度的视频AoT、细粒度的帧AoT和截断的帧AoT，用于训练CombatVLA模型。数据集由人类玩家的动作序列组成，通过动作跟踪器收集，并按照AoT格式组织，包含动作及其解释。该数据集旨在帮助模型逐步掌握战斗策略，从理解战斗环境到做出快速决策。

This study constructs a three-stage dataset named Action-of-Thought (AoT), which includes coarse-grained video AoT, fine-grained frame AoT and truncated frame AoT, and is designed for training the CombatVLA model. The dataset comprises action sequences from human players, collected via action trackers, organized in the AoT format, and contains both the actions and their corresponding explanations. This dataset aims to help models gradually master combat strategies, ranging from understanding combat environments to making rapid decisions.

提供机构：

阿里巴巴集团

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

CombatVLA数据集的构建方式是通过一个名为Action Tracker的工具来收集玩家在3D动作角色扮演游戏中的键盘和鼠标操作数据。这些数据被格式化为Action-of-Thought (AoT)序列，包括一系列动作和对应的解释。AoT序列经过三阶段的渐进式学习范式训练，包括视频级别的AoT调整、帧级别的AoT调整以及帧截断AoT调整。这种训练方式旨在帮助模型逐渐掌握战斗策略，从粗粒度的视频级别到细粒度的帧级别，再到最终的截断策略，以提高推理速度。

使用方法

CombatVLA数据集的使用方法是将收集到的AoT数据用于训练模型，使其能够在战斗场景中进行实时决策和动作执行。模型训练完成后，可以将其集成到一个动作执行框架中，通过截断策略来实现高效的推理。在实际应用中，模型可以自动执行游戏中的战斗任务，例如躲避敌人攻击、恢复生命值或攻击敌人。

背景与挑战

背景概述

Action-of-Thought Dataset作为CombatVLA模型训练数据的基础，该数据集由阿里巴巴集团的研究人员于2025年创建。该数据集旨在解决当前视觉-语言-动作模型在3D动作角色扮演游戏（ARPGs）中面临的挑战，如实时决策、高分辨率感知和战术推理。该数据集的核心研究问题是提高视觉-语言-动作模型在复杂3D环境中的决策效率和能力。Action-of-Thought Dataset的创建对于推动相关领域的发展具有重要意义，它为研究者提供了一个评估和改进视觉-语言-动作模型性能的平台。

当前挑战

Action-of-Thought Dataset在构建过程中面临了多个挑战。首先，由于缺乏带标签的动作数据，研究人员开发了一个轻量级的Python工具——动作跟踪器，用于收集游戏中的玩家行为序列，以便为战斗理解模型提供大量训练数据。其次，为了评估模型的战斗理解能力，研究人员建立了一个全面的战斗理解基准（CUBench），通过VQA格式评估模型在识别敌人位置和动作推理任务方面的表现。此外，为了提高模型的推理效率，研究人员设计了截断策略，以加速模型的推理过程。Action-of-Thought Dataset所解决的领域问题是提高视觉-语言-动作模型在复杂3D环境中的决策效率和能力，这对于推动相关领域的发展具有重要意义。

常用场景

经典使用场景

在复杂三维环境中的实时决策制定中，Action-of-Thought Dataset（行动-思想数据集）通过其高效的视觉-语言-行动模型（CombatVLA）展现了卓越的表现。该模型专为三维动作角色扮演游戏（ARPGs）中的战斗任务而优化，能够实时处理高分辨率视觉流，并适应动态变化的敌人行为，从而在复杂的战斗场景中实现高效决策。此外，CombatVLA通过其截断的行动-思想策略，实现了高效的推理过程，显著提高了游戏的执行速度，使其在实时战斗中表现优异。

解决学术问题

该数据集解决了当前视觉-语言-行动模型在实时响应、高分辨率感知和战术推理方面的挑战，特别是在三维动作角色扮演游戏中。CombatVLA通过其高效的模型设计和训练策略，不仅提高了模型的战斗理解能力，还实现了50倍的游戏执行加速，甚至超过了人类玩家的成功率。这一成果对于推动视觉-语言-行动模型在实时复杂环境中的应用具有重要意义，并为未来研究提供了新的方向。

实际应用

Action-of-Thought Dataset的实际应用场景主要集中在三维动作角色扮演游戏中的战斗任务。通过CombatVLA模型，该数据集能够实现实时高效的决策制定，帮助游戏角色在战斗中快速响应并采取有效的行动。此外，该数据集的应用还可以扩展到其他需要实时响应和复杂推理的领域，如自动驾驶、机器人控制等。

数据集最近研究