Continual NavBench
收藏arXiv2025-06-03 更新2025-06-05 收录
下载链接:
https://sites.google.com/view/continual-nav-bench
下载链接
链接失效反馈官方服务:
资源简介:
Continual NavBench是一个针对虚拟游戏世界中导航任务的持续离线强化学习基准。该基准包含由人类生成的数据,旨在捕捉关键挑战:灾难性遗忘、任务适应和内存效率。数据集来自10小时的人类游戏玩法(约3000个回合),以捕获不同的导航策略。
Continual NavBench is a continual offline reinforcement learning benchmark for navigation tasks in virtual game worlds. This benchmark contains human-generated data, which is designed to capture key challenges including catastrophic forgetting, task adaptation, and memory efficiency. The dataset is sourced from 10 hours of human gameplay (approximately 3000 episodes) to capture diverse navigation strategies.
提供机构:
Inria, Univ. Lille, CNRS, Centrale Lille, UMR 9198-CRIStAL, France; Ubisoft La Forge, Bordeaux, France
创建时间:
2025-06-03
原始信息汇总
Continual NavBench 数据集概述
数据集基本信息
- 名称: Continual NavBench
- 类型: 持续离线强化学习基准测试
- 应用领域: 游戏AI、机器人导航
- 开发状态: IEEE Conference on Games 2025(评审中)
- 相关资源:
核心特点
-
持续学习能力:
- 支持智能体在不断变化的任务中持续适应
- 解决灾难性遗忘问题
- 强调任务适应性和内存效率
-
导航任务多样性:
- 包含多种视频游戏导航场景
- 涵盖地图布局变化和运动动力学更新
- 支持程序生成关卡和频繁更新的地图
-
评估体系:
- 提供标准化评估协议
- 包含性能评估指标
- 集成最先进算法基线
技术优势
- 相比传统导航网格(NavMesh)方法:
- 减少人工设计需求
- 适应动态环境变化
- 支持在线更新
应用价值
- 为游戏开发提供:
- 可复现的研究框架
- 导航方法评估标准
- 生产管线优化方案
数据示例
- 包含人类玩家生成的大型迷宫导航轨迹
- 提供小型地图上的人类生成轨迹示例
搜集汇总
数据集介绍

构建方式
Continual NavBench数据集的构建依托于Godot引擎精心设计的3D迷宫环境,通过系统化采集10小时人类玩家操作数据(约2800条轨迹),涵盖简单型(20m×20m)与复杂型(60m×60m)两类共16种迷宫布局。数据采集过程严格遵循标准化协议,每条轨迹包含多维状态特征(位置、深度图像等)及对应动作指令,并通过分层任务流设计(如随机流AR1/AR2与拓扑流AT1/ST2)模拟现实场景中动态演变的导航需求。数据集同时集成Hindsight Experience Replay技术进行数据增强,确保覆盖多样化导航策略与状态空间。
特点
该数据集的核心价值体现在三方面:其一,首创性地将离线强化学习与持续学习范式结合,通过8组预设任务流系统评估模型在灾难性遗忘、知识迁移及内存效率等关键指标的表现;其二,提供工业级可扩展性验证,包含模型推理耗时(INF)、训练成本(TRN)等生产导向指标;其三,数据多样性突出,既包含基础空间导航挑战,也设计了需动态调整策略的跳越障碍等复杂场景,且所有迷宫布局均通过开源代码实现高度可复现性。
使用方法
使用本数据集需遵循三层评估框架:首先加载预分割的训练/测试集,采用分层模仿学习(HGCBC)架构进行基线模型训练;继而通过六大标准指标(PER/BWT/FWT等)量化模型在任务流中的持续学习能力,特别关注反向迁移(BWT)揭示的遗忘程度;最终结合内存占用(MEM)与计算成本(TRN/INF)进行工业适用性验证。研究者可利用提供的基准工具包快速实现PNN、HiSPO等先进算法的对比实验,或通过自定义任务流扩展评估维度。所有实验环境配置(如GELU激活函数、3×256隐藏层)均已标准化以确保结果可比性。
背景与挑战
背景概述
Continual NavBench是由Anthony Kobanda、Odalric-Ambrym Maillard和Rémy Portelas等研究人员于2025年提出的一个持续离线强化学习基准测试数据集,专注于虚拟游戏世界中的导航任务。该数据集由法国Inria、里尔大学和Ubisoft La Forge等机构联合开发,旨在填补持续强化学习(CRL)在视频游戏导航任务中标准化基准测试的空白。Continual NavBench通过提供多样化的迷宫环境、人类生成的轨迹数据以及标准化的评估协议,为研究社区提供了一个可复现的实验平台。其核心研究问题聚焦于如何使智能体在不断变化的任务中持续学习而不遗忘先前知识,这对于机器人学和视频游戏模拟等领域的实际应用具有重要意义。
当前挑战
Continual NavBench面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,持续强化学习中的灾难性遗忘、任务适应性和内存效率是主要难点。智能体需要在学习新任务的同时保持对旧任务的性能,这对算法的设计提出了较高要求。在构建过程中,数据收集和标注的复杂性、环境设计的多样性以及评估指标的全面性都是需要克服的困难。例如,人类玩家生成的导航策略数据需要覆盖多样化的迷宫布局和任务类型,以确保数据集的代表性和泛化能力。此外,设计能够准确反映算法性能的评估协议和指标也是一项挑战,需要平衡计算效率和评估的全面性。
常用场景
经典使用场景
在虚拟游戏环境中,自主导航代理需要适应不断变化的任务而不遗忘先前学习的技能。Continual NavBench数据集通过提供一系列视频游戏导航场景,填补了持续离线强化学习领域的空白。该数据集包含多样化的迷宫配置和任务流,能够有效评估代理在复杂环境中的适应能力和知识保留能力。
解决学术问题
Continual NavBench数据集解决了持续强化学习中的几个关键学术问题,包括灾难性遗忘、任务适应性和内存效率。通过标准化的离线数据集和评估协议,该数据集为研究者提供了一个可重复的实验框架,用以评估不同算法在复杂导航任务中的表现。其引入的多种评估指标(如性能、后向转移和前向转移)为持续学习算法的比较提供了科学依据。
衍生相关工作
Continual NavBench数据集衍生了一系列经典工作,包括基于回放的方法(如Experience Replay)、权重正则化技术(如EWC和L2正则化)以及架构策略(如渐进神经网络和分层子空间策略)。这些工作不仅推动了持续离线强化学习领域的发展,还为实际应用中的算法优化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



