Hokoff
收藏arXiv2024-08-20 更新2024-08-22 收录
下载链接:
https://sites.google.com/view/hok-offline
下载链接
链接失效反馈官方服务:
资源简介:
Hokoff数据集由清华大学、腾讯天美工作室和腾讯AI实验室联合创建,源自全球热门的多人在线战斗竞技场(MOBA)游戏《王者荣耀》。该数据集包含丰富的预训练模型生成的多样化数据,适用于离线强化学习和离线多智能体强化学习。数据集的创建过程利用了游戏中的多级别模型进行数据采样,确保了数据的真实性和复杂性。Hokoff数据集主要应用于强化学习算法的开发和评估,旨在解决现实世界中的复杂决策问题和多任务学习挑战。
The Hokoff dataset was jointly created by Tsinghua University, Tencent TiMi Studio Group, and Tencent AI Lab, originating from *Honor of Kings*, a globally popular multiplayer online battle arena (MOBA) game. It encompasses diverse data generated by a range of pre-trained models, and is tailored for offline reinforcement learning and offline multi-agent reinforcement learning. The dataset creation process utilized multi-level in-game models for data sampling, ensuring the authenticity and complexity of the collected data. Primarily applied to the development and evaluation of reinforcement learning algorithms, the Hokoff dataset aims to address complex real-world decision-making problems and multi-task learning challenges.
提供机构:
清华大学,腾讯天美工作室,腾讯AI实验室
创建时间:
2024-08-20
搜集汇总
数据集介绍

构建方式
Hokoff数据集的构建基于《王者荣耀》这一广受欢迎的多人在线战斗竞技场(MOBA)游戏。通过利用游戏中的复杂环境和多样的英雄角色,研究团队精心设计了涵盖离线强化学习和离线多智能体强化学习的综合数据集。数据集的生成过程包括使用预训练模型在不同难度级别下进行对战,记录并收集对战轨迹,确保数据集能够真实反映现实世界的复杂性和实用性。
特点
Hokoff数据集的显著特点在于其高度复杂和多样化的任务设置,这些任务源自《王者荣耀》这一拥有超过1亿日活跃用户的游戏。数据集不仅涵盖了单智能体和多智能体的离线强化学习任务,还特别设计了多难度、多任务和泛化能力测试等数据集,以全面评估算法的性能。此外,数据集的构建考虑了实际应用中的异质队友问题,为离线多智能体强化学习提供了丰富的研究素材。
使用方法
Hokoff数据集的使用方法包括数据集的下载、预处理以及在框架中进行算法训练和评估。研究者可以通过提供的开源框架,利用数据集进行离线强化学习和离线多智能体强化学习算法的开发和测试。框架提供了采样、训练和评估三个模块,支持多种算法的实现和性能比较。通过这些模块,研究者可以方便地进行数据集的采样、模型的训练和性能的评估,从而推动离线强化学习领域的发展。
背景与挑战
背景概述
Hokoff数据集是由清华大学和腾讯天美工作室联合开发的综合性预收集数据集,旨在解决现有离线强化学习(Offline RL)和离线多智能体强化学习(Offline MARL)数据集在简单性和缺乏现实性方面的不足。该数据集基于《王者荣耀》这一广受欢迎的多人在线战斗竞技场(MOBA)游戏,其复杂性接近现实生活情境。Hokoff数据集的创建时间为2024年,主要研究人员包括Yun Qu、Boyuan Wang等,核心研究问题是如何在离线环境中有效学习和优化策略,以应对复杂的任务环境和多任务学习需求。该数据集对强化学习领域的影响力在于其提供了高质量、多样化的预收集数据,推动了离线RL和MARL算法的发展,并为实际应用场景提供了强有力的支持。
当前挑战
Hokoff数据集在构建过程中面临的主要挑战包括:1) 如何从复杂的《王者荣耀》游戏中提取出具有代表性的离线数据,以确保数据集的现实性和复杂性;2) 如何设计有效的评估框架,以公平比较不同算法的性能;3) 如何处理离线RL中的价值高估问题,这是由于数据集与学习策略之间的分布偏移引起的。此外,Hokoff数据集还需要解决多任务学习中的泛化能力问题,以及在多智能体设置中处理异质队友的挑战。这些挑战不仅影响了数据集的构建质量,也对其在实际应用中的有效性提出了更高的要求。
常用场景
经典使用场景
Hokoff数据集在离线强化学习(Offline RL)和离线多智能体强化学习(Offline MARL)领域中被广泛应用。其经典使用场景包括通过预先收集的高质量数据集来训练和评估各种离线RL和MARL算法。数据集源自《王者荣耀》这一复杂的多人在线战斗竞技场(MOBA)游戏,能够有效模拟现实世界中的复杂决策场景。
实际应用
在实际应用中,Hokoff数据集被用于训练和评估机器人、自动驾驶系统等需要在安全环境中进行策略优化的系统。通过使用预先收集的数据集,这些系统可以在不与真实环境交互的情况下学习到有效的策略,从而避免了在线RL中可能出现的高成本和危险操作。
衍生相关工作
基于Hokoff数据集,研究者们开发了多种新的离线RL和MARL算法,如QMIX+CQL和IND+ICQ等。这些算法在处理复杂任务、提高泛化能力和多任务学习方面表现出色。此外,Hokoff数据集还促进了相关领域的研究,如多智能体系统中的异质队友问题和多任务学习中的知识共享问题。
以上内容由遇见数据集搜集并总结生成



