hlrlrd-parsed

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/Rolv-Arild/hlrlrd-parsed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是High-Level Rocket League Replay Dataset的解析版本，原始数据来源于Kaggle平台。数据集将Rocket League（火箭联盟）游戏回放数据通过rlgym-tools工具解析为ReplayFrame对象，并序列化为numpy数组格式存储为.npz文件。数据集提供两种配置：default（默认配置）和smol（较小子集配置），每种配置均包含训练集（train）、验证集（validation）和测试集（test）三个标准划分。数据文件按照特定路径模式组织，便于程序化访问。该数据集适用于Rocket League游戏AI研究、回放数据分析、强化学习训练等场景，用户可以通过提供的代码示例实现远程流式访问或本地下载后处理。数据集中的每个numpy数组可进一步反序列化为游戏回放帧对象，包含游戏状态信息。

This dataset is a parsed version of the High-Level Rocket League Replay Dataset, with original data sourced from Kaggle. It uses the rlgym-tools tool to parse Rocket League game replay data into ReplayFrame objects, serialized into numpy arrays stored as .npz files. The dataset offers two configurations: default (default configuration) and smol (smaller subset configuration), each containing standard splits for training, validation, and test sets. Data files are organized according to a specific path pattern for programmatic access. It is suitable for Rocket League game AI research, replay data analysis, reinforcement learning training, and similar applications. Users can implement remote streaming access or local post-processing via provided code samples. Each numpy array in the dataset can be further deserialized into game replay frame objects containing game state information.

创建时间：

2026-05-15

原始信息汇总

数据集概述

数据集名称：High-Level Rocket League Replay Dataset（解析版，hlrlrd-parsed）
数据集来源：基于Kaggle上的High-Level Rocket League Replay Dataset，经解析后得到。
解析工具：使用rlgym-tools的ReplayFrame对象进行解析，并序列化为NumPy数组（.npz格式）。
数据格式：每个文件为.npz格式，内部存储的是通过deserialize_replay_frame函数反序列化得到的Rocket League回放帧数据。

数据集配置与划分

该数据集提供两种配置（config），分别适用于不同规模的使用需求：

配置名称	说明	训练集（train）	验证集（validation）	测试集（test）
default	完整数据集	文件路径：`data/[0-9a-e]/[0-9a-e].npz`	文件路径：`data/f[0-7]/f[0-7]*.npz`	文件路径：`data/f[7-9a-f]/f[7-9a-f]*.npz`
smol	较小子集	文件路径：`data/0[0-9a-e]/0[0-9a-e]*.npz`	文件路径：`data/ff/ff[0-7]*.npz`	文件路径：`data/ff/ff[7-9a-f]*.npz`

文件路径中的通配符模式用于匹配具体的文件夹和文件，用户可通过Hugging Face的HfFileSystem或本地文件系统进行获取。

数据访问方式

该数据集托管于Hugging Face，支持远程流式访问和本地下载两种方式：

远程流式访问：通过stream_remote函数，利用多线程预加载（ThreadPoolExecutor）从Hugging Face的远程存储中逐文件读取并反序列化为回放帧。
本地下载后访问：通过snapshot_download将数据集下载到本地目录，然后使用stream_local函数读取本地.npz文件，同样反序列化为帧。

示例代码在README中提供，用户可参考其中的iter_frames函数将NumPy数组转换为Rocket League帧对象，进而进行后续分析或处理。

使用建议

若仅需探索或处理少量数据，推荐使用smol配置以减少传输量。
如需完整数据，使用default配置，并注意远程文件索引可能需要一定时间。
对于本地处理或需多次访问的场景，建议先下载到本地以提高读取速度。

搜集汇总

数据集介绍

构建方式

该数据集源于高水平的《火箭联盟》回放数据集合，通过rlgym-tools工具将原始回放解析为ReplayFrame对象，并序列化为高效的numpy数组格式存储。其构建遵循分层结构，依据文件路径的前缀字符划分训练集（data/[0-9a-e]*）、验证集（data/f[0-7]）与测试集（data/f[7-9a-f]），同时提供了小巧的“smol”配置版本，便于快速实验。

特点

hlrlrd-parsed数据集具备高度的结构化和可扩展性，所有样本以npz压缩包形式存储，极大降低了磁盘占用并提升I/O效率。其设计支持远程流式加载与本地下载两种访问模式，配合多线程预取机制显著加速数据迭代。此外，数据集保留了完整的回放帧信息，可直接反序列化为强化学习环境中的状态表示，适配rlgym生态。

使用方法

使用者可通过HuggingFace Datasets库灵活调用：先根据配置名（default或smol）和拆分类型（train/validation/test）获取文件匹配模式，再选择远程流式加载（stream_remote函数并行预取）或先下载至本地后高效读取（stream_local函数）。获取的numpy数组可经由deserialize_replay_frame函数逐帧还原为游戏状态向量，无缝嵌入基于rlgym的强化学习流水线中。

背景与挑战

背景概述

电子竞技领域的数据驱动研究近年来蓬勃发展，其中《火箭联盟》作为一款融合赛车与足球的独特竞技游戏，其高动态、多智能体交互的特性为人工智能研究提供了极具价值的试验场。hlrlrd-parsed数据集由Rolv-Arild等研究人员于近年创建，基于Kaggle上的High-Level Rocket League Replay Dataset，通过rlgym-tools工具将其解析为ReplayFrame对象并序列化为NumPy数组。该数据集旨在解决高等级《火箭联盟》比赛中智能体决策建模的核心研究问题，涵盖训练、验证与测试三部分，为模仿学习、多智能体强化学习等领域提供了标准化、易获取的数据基础，显著推动了游戏AI与机器人控制的研究进展。

当前挑战

当前数据集面临的挑战主要来自多维度复杂性。其一，高等级《火箭联盟》比赛涉及连续控制、团队协作与瞬时反应，传统模型难以捕捉此类长时依赖与空间交互行为，对算法设计提出严峻考验。其二，数据构建过程中，原始回放文件格式异构，解析为统一ReplayFrame需要精准的状态提取与对齐，同时需处理海量24kbps以上的高帧率数据，存储与序列化过程中易产生性能瓶颈与信息丢帧风险。此外，大规模数据在分布式环境下的高效流式加载与内存管理亦是技术难点，现有实现依赖多线程预取，对网络带宽与计算资源要求较高。

常用场景

经典使用场景

在体育竞技与人工智能的交叉领域中，该数据集为基于深度强化学习的复杂决策系统提供了弥足珍贵的实验素材。其最为经典的使用场景，当属对火箭联盟这类高动态、多智能体协作游戏进行智能体策略训练。研究人员能够借助该数据集中蕴含的大量高水平玩家对战回放，精准解析顶尖玩家的操作序列与战术选择，从而训练出具备高度鲁棒性与协作能力的虚拟智能体，使其在模拟环境中展现出媲美人类精英选手的竞技水准。

实际应用

在实际应用层面，该数据集的价值已远远超越了单纯的游戏智能体训练。游戏开发产业可以借助这些经过解析的结构化数据进行自动化赛事复盘分析、战术效能评估以及非玩家角色（NPC）行为逻辑的优化，从而极大提升游戏产品的沉浸感与平衡性。此外，其中蕴含的序列决策与多模态信息融合技术，对于自动驾驶中的车辆博弈、无人机集群编队协调乃至工业机器人的柔顺操作等现实场景，均展现出极具启发性的迁移应用潜力。

衍生相关工作

基于该数据集，学术界衍生出一系列引人瞩目的经典工作。诸多研究团队利用其回放数据，成功构建了能够预测职业选手操作轨迹的Transformer模型，并开发出基于自监督对比学习的状态表征框架。更为重要的是，该数据集催生了诸如离线强化学习的策略约束算法以及基于扩散模型的轨迹生成方法在竞技游戏评估基准上的系统性验证，这些工作不仅巩固了数据驱动方法在高维决策问题中的核心地位，也为后续的模仿学习与策略优化研究开辟了崭新的道路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集