OfflineMania

Name: OfflineMania
Creator: 佛罗伦萨大学
Published: 2024-07-13 00:44:03
License: 暂无描述

arXiv2024-07-13 更新2024-08-01 收录

下载链接：

https://github.com/ganjiro/OfflineMania

下载链接

链接失效反馈

官方服务：

资源简介：

OfflineMania是由佛罗伦萨大学和电子艺界（EA）开发的用于离线强化学习研究的数据集，基于Unity 3D游戏引擎构建。该数据集包含100,000条转换记录，来源于不同能力的策略，旨在评估和开发强化学习算法。数据集的创建过程涉及使用近端策略优化（PPO）训练不同级别的策略，并收集其行为数据。OfflineMania主要应用于游戏AI研究，特别是在赛车游戏领域，旨在提高算法的鲁棒性和适应性，解决传统强化学习中样本复杂度高的问题。

OfflineMania is a dataset developed by the University of Florence and Electronic Arts (EA) for offline reinforcement learning research, built on the Unity 3D game engine. This dataset contains 100,000 transition records sourced from policies with varying levels of capability, aiming to evaluate and develop reinforcement learning algorithms. The dataset creation process involves training policies at different levels using Proximal Policy Optimization (PPO) and collecting their behavioral data. OfflineMania is primarily applied in game AI research, particularly in the racing game domain, with the goal of enhancing algorithm robustness and adaptability while addressing the high sample complexity issue inherent in traditional reinforcement learning.

提供机构：

佛罗伦萨大学

创建时间：

2024-07-13

原始信息汇总

OfflineMania 数据集概述

概述

OfflineMania 是一个用于离线强化学习（ORL）研究的新环境，灵感来源于 TrackMania 系列，并使用 Unity 3D 游戏引擎开发。它模拟了一个单智能体赛车游戏，旨在实现最佳赛道导航，并提供多样化的数据集用于 ORL 研究。

环境细节

状态空间

状态空间包括 15 个覆盖 180 度视野的射线投射和车辆的 (X, Y, Z) 速度分量。

动作空间

动作空间包含两个连续值：

转向角度：范围从 -1（左转）到 1（右转）。
加速/刹车：范围从 -1（刹车/倒车）到 1（全加速）。

奖励信号

奖励函数基于进度，并对碰撞进行速度缩放的惩罚。

$$ r_t = r_t^{ ext{prog}} - egin{cases} lambda parallel v_{ ext{car}}parallel & ext{如果与墙壁接触}
0 & ext{否则} end{cases} $$

回合

每个回合固定长度为 2,000 步，起始位置和方向随机化以确保训练场景的多样性。

数据集

Basic：100,000 个来自在初始弯道挣扎的策略的转换。
Medium：100,000 个来自偶尔完成赛道的策略的转换。
Expert：100,000 个来自高性能策略的转换。
Mix Large：200,000 个转换，结合了 90% 基本、7% 中等和 3% 专家。
Mix Small：5,000 个转换，混合比例与 Mix Large 相同。
Basic Small：5,000 个来自基本策略的转换。

搜集汇总

数据集介绍

构建方式

OfflineMania是一个基于Unity 3D游戏引擎开发的单人赛车游戏环境，其构建采用了TrackMania系列游戏的灵感。环境中包含了状态空间、动作空间、奖励函数以及回合循环等要素。状态空间由15个覆盖在车辆前方180度视野内的射线组成，动作空间包括控制车辆转向和加减速的两个连续值。奖励函数设计考虑了车辆在赛道上的位置进展和碰撞惩罚。通过不同的训练策略，我们收集了多种数据集，每个包含10万个转换，以评估ORL性能。

特点

OfflineMania数据集的特点在于其多样性，包含了由不同能力水平策略生成的数据，以及不同大小的混合数据集。这些数据集旨在为ORL算法提供一个具有挑战性的测试平台，特别是在处理小型数据集时的鲁棒性和适应性。此外，数据集还考虑了现代AAA游戏中环境交互的复杂性和高成本问题。

使用方法

使用OfflineMania数据集时，研究者可以加载预先收集的转换数据，用于训练ORL算法。数据集支持Gymnasium接口，易于集成到现有的实验设置中。此外，数据集提供了渲染功能，可以帮助定性地评估智能体行为。在算法训练过程中，可以通过调整超参数来优化模型性能，并在不同的数据集上进行测试以评估其泛化能力。

背景与挑战

背景概述

OfflineMania数据集源于对现代AAA级游戏中的强化学习应用挑战的深刻认识。该数据集由Girolamo Macaluso、Alessandro Sestini和Andrew D. Bagdanov等研究人员于University of Florence和SEED - Electronic Arts (EA)共同开发，旨在为离线强化学习（ORL）提供一个基准环境。OfflineMania基于Unity 3D游戏引擎构建，模拟了一个单一智能体赛车游戏，目标是通过对预设轨道的最优导航来完成比赛。该数据集包含了不同能力级别的策略生成的多种数据集，旨在为算法开发和评估提供一个具有挑战性的测试平台。

当前挑战

OfflineMania数据集在构建过程中遇到的挑战主要包括：如何有效地在无环境交互的情况下，利用预收集的环境转换数据集来训练鲁棒的策略；如何在存在数据分布偏移的情况下，将离线训练的策略有效地迁移到在线环境中进行微调；以及如何为不同大小的数据集提供适应性的算法设计和评估。具体而言，数据集构建的挑战包括数据收集的质量控制、数据多样性的确保以及算法在复杂环境下的泛化能力。

常用场景

经典使用场景

OfflineMania数据集是针对离线强化学习（ORL）研究而设计的，其经典使用场景在于为ORL算法提供多样化的训练数据。这些数据来源于不同能力水平的代理策略，在Unity 3D游戏引擎中模拟的单人赛车游戏环境中收集。OfflineMania通过提供基础、中等和专家级别的策略生成的数据集，使得研究者能够评估ORL算法在不同难度级别的表现，进而推动算法的进步。

解决学术问题

OfflineMania数据集解决了传统在线强化学习（RL）样本复杂度高的问题。通过使用预先收集的环境转换数据集，ORL算法无需与环境的持续交互即可创建稳健的策略。这在现代AAA级游戏中尤为重要，因为这些游戏往往计算量大、模拟速度慢且不稳定，导致了对环境的大量交互。OfflineMania通过提供不同大小的数据集，帮助研究者减少样本复杂性，提高训练效率。

衍生相关工作

OfflineMania数据集的发布促进了相关研究的开展，衍生出了一系列经典工作。例如，研究者基于该数据集开发了多种ORL算法，如保守Q学习（CQL）、隐式Q学习（IQL）等，并在OfflineMania的基础上进行了基准测试。此外，还有研究工作关注于如何将离线训练与在线微调相结合，以提高ORL算法在游戏环境中的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集