maknee/league-of-legends-decoded-replay-packets
收藏Hugging Face2025-09-28 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/maknee/league-of-legends-decoded-replay-packets
下载链接
链接失效反馈官方服务:
资源简介:
《英雄联盟》游戏回放数据集,包含超过1TB(700k+场回放)的游戏数据,用于游戏分析、行为建模和强化学习应用研究。数据集按游戏版本划分,包含解析的包级别游戏事件,以JSONL格式存储。支持通过Gym环境或手动下载处理的方式使用数据。
The League of Legends game replay dataset contains over 1TB (700k+ replays) of game data for research in gaming analytics, behavioral modeling, and reinforcement learning applications. The dataset is organized by game patch versions and includes parsed packet-level game events stored in JSONL format. It supports usage through a Gym environment or manual download and processing.
提供机构:
maknee
搜集汇总
数据集介绍

构建方式
在电子竞技研究领域,高质量的游戏对局数据是理解玩家行为与训练强化学习模型的关键资源。该数据集通过解析《英雄联盟》游戏客户端生成的回放文件,提取出结构化的数据包信息,构建了包含超过70万场对局、总容量逾1TB的庞大数据集合。数据按照游戏版本号(如12_22、12_23等)进行组织,每个版本下以JSONL格式存储压缩文件,每行代表一场完整对局的时间序列事件列表。事件数据涵盖了从英雄创建、技能施放到物品购买等20种数据包类型,所有事件均按时间顺序排列,并保留了原始的空间坐标与状态数值,确保了数据的精细度与可复现性。
特点
该数据集的核心优势在于其规模宏大且维度丰富,为游戏分析与行为建模提供了前所未有的深度。其数据包类型覆盖了游戏全生命周期的核心机制,包括移动路径点、技能冷却、伤害计算、视野变化以及小兵与野怪生成等,能够完整还原对局中的每一帧交互。此外,数据按版本分片存储,便于研究者针对特定游戏版本的元数据变化进行对比分析。数据格式采用标准JSON结构,每个事件都附带精确的时间戳,使得时间序列分析与事件因果推断成为可能,特别适用于强化学习环境中的状态表征与策略学习任务。
使用方法
为便于研究者高效利用该数据集,推荐通过配套的Gym环境库进行加载,该工具封装了数据流式读取与预处理逻辑,用户仅需指定版本与批次文件路径即可快速获取结构化对局数据。对于需要自定义处理流程的进阶用户,亦可直接通过Hugging Face Hub下载压缩文件,使用Python的gzip与json库逐行解析,灵活提取特定事件类型或时间窗口的片段。数据集中提供了完整的Python数据类定义文件,清晰映射了每种数据包的字段含义,降低了数据解析的门槛。无论是构建强化学习智能体、训练时间序列预测模型,还是进行游戏行为分析,该数据集均能以标准化接口支持多样化的研究需求。
背景与挑战
背景概述
电子竞技作为数字时代的新兴竞技领域,其复杂的实时策略与团队协作机制为人工智能研究提供了独特的试验场。《英雄联盟》作为全球最受欢迎的MOBA游戏之一,其海量对局数据蕴含着丰富的行为模式与决策逻辑。由研究者maknee于2025年创建的League of Legends Decoded Replay Packets数据集,汇集了超过700,000场、总量逾1TB的解析后对局回放数据,按游戏版本(如12_22、13_01等)系统组织,涵盖从英雄创建、技能施放到物品交易等20种关键事件类型。该数据集的核心研究问题聚焦于通过细粒度的数据包级事件序列,推动强化学习、游戏分析与行为建模等领域的发展,为训练类似OpenAI Five的智能体提供了高保真度的行为数据基础,在游戏AI与电子竞技研究中具有重要的开创性意义。
当前挑战
该数据集面临的核心挑战在于领域问题与构建过程两个层面。在领域问题方面,尽管数据提供了丰富的游戏事件,但如何从海量的时序数据中有效提取具有因果关系的决策模式,并应对英雄联盟中高达160余位英雄的复杂技能组合与动态环境,仍是强化学习与行为建模中的关键难题。在构建过程中,超过1TB的原始回放数据需要经过精确的协议解码与结构化转换,确保20种数据包类型的时间戳对齐与跨版本兼容性,同时处理因游戏版本迭代导致的事件格式差异,以及数据清洗中可能出现的缺失或异常事件流,这些技术难点对数据集的质量与可用性构成了严峻考验。
常用场景
经典使用场景
《英雄联盟》解码回放包数据集以其超过1TB、涵盖70万场以上对局的庞大规模,成为游戏分析与强化学习领域的标志性资源。该数据集按游戏补丁版本组织,包含20种数据包类型,如英雄创建、技能施放、移动路径、伤害计算及物品购买等,完整捕捉了每一局比赛的微观与宏观动态。研究者可借助其提供的Gym环境或直接处理JSONL压缩文件,轻松提取时序事件序列,用于训练智能体模仿人类决策、预测战斗结果或分析战术演变。该数据集特别适合作为多智能体强化学习、时序预测和博弈论研究的基准,为探索复杂对抗环境中的最优策略提供了前所未有的数据基础。
解决学术问题
该数据集精准回应了游戏人工智能领域长期面临的真实环境数据稀缺问题。传统学术研究多依赖简化模拟器或有限标注数据,难以复现职业级对局的复杂性与多样性。通过提供海量、细粒度的比赛回放,该数据集使研究者能够深入探究多智能体协作与竞争中的动态博弈、资源分配与时空决策机制。例如,可基于WaypointGroup与CastSpellAns等事件解析玩家微操模式,或利用Replication数据量化团队协同效率。这为开发具有类人推理能力的游戏AI、建模对手行为意图以及量化环境不确定性提供了坚实的数据支撑,推动了电子竞技分析从描述性统计向预测性建模的范式跃迁。
衍生相关工作
该数据集已催生多项具有影响力的衍生工作。其中,OpenLeague5项目借鉴OpenAI Five架构,利用该数据集训练了一个基于Transformer的决策模型,能够以35.4%的置信度预测技能使用动作,并输出状态价值与目标坐标,为端到端游戏AI提供了可复现的基线。此外,基于该数据集开发的冠军位置可视化工具(Champion GIF Generator)将WaypointGroup数据转化为动态轨迹热图,成为战术分析论文中广泛引用的可视化范式。另有研究利用Replication数据中的血量与位置信息,构建了游戏状态预测模型,在时序预测任务上达到了领先水平。这些工作共同验证了该数据集作为多智能体系统、行为克隆与状态表征学习基准的学术潜力。
以上内容由遇见数据集搜集并总结生成



