klasktron-il-benchmark

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/KlaskLab/klasktron-il-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

KlaskTron是一个用于模仿学习的Klask游戏数据集，包含三个层次的数据：真实人类游戏记录、经过轴镜像增强的人类数据和大规模合成推演数据。数据集总共有35,204个游戏片段和5,402,955个动作步骤。数据以Parquet和pickle格式提供，包含状态观测（形状[12]）和动作（形状[4]）的详细描述。适用于机器人学、强化学习和模仿学习任务。数据集采用Creative Commons Attribution 4.0 International License (CC-BY-4.0)许可。

KlaskTron is a dataset for imitation learning in the Klask game, containing three levels of data: real human gameplay records, axis-mirrored augmented human data, and large-scale synthetic rollout data. The dataset consists of 35,204 game episodes and 5,402,955 action steps. Data is provided in Parquet and pickle formats, including detailed descriptions of state observations (shape [12]) and actions (shape [4]). Suitable for robotics, reinforcement learning, and imitation learning tasks. The dataset is licensed under the Creative Commons Attribution 4.0 International License (CC-BY-4.0).

创建时间：

2026-04-22

原始信息汇总

KlaskTron 数据集概述

基本信息

数据集名称: KlaskTron
许可证: Creative Commons Attribution 4.0 International License (CC-BY-4.0)
任务类型: 机器人学（robotics）、强化学习（reinforcement-learning）
标签: 模仿学习、强化学习、机器人学、控制、仿真、Klask、Parquet、Pickle、表格数据
数据规模: 1M < n < 10M（共 5,402,955 步动作）

数据集构成

KlaskTron 是一个 Klask 模仿学习数据集，包含三个层级：

层级	片段数	步数	来源
`human`	111	80,591	从记录的人类对局中重建
`human_augmented`	444	322,364	对 `human` 层级进行轴镜像增强（无、x、y、xy）
`synthetic`	34,649	5,000,000	在仿真环境中使用专家级策略生成
总计	35,204	5,402,955	—

数据配置与加载

数据集提供三个配置（config），分别对应三个层级：

human: 数据文件路径 parquet/human/*.parquet
human_augmented: 数据文件路径 parquet/human_augmented/*.parquet
synthetic: 数据文件路径 parquet/synthetic/*.parquet（默认配置）

加载 Parquet 格式示例

python from datasets import load_dataset

human = load_dataset("KlaskLab/klasktron-il-benchmark", "human", split="train") human_augmented = load_dataset("KlaskLab/klasktron-il-benchmark", "human_augmented", split="train") synthetic = load_dataset("KlaskLab/klasktron-il-benchmark", "synthetic", split="train")

数据字段说明（Parquet 格式）

每一行 Parquet 数据代表一次状态转移：

字段	含义
`tier`	层级标识：`human`、`human_augmented` 或 `synthetic`
`episode_id`	层级内部的片段 ID
`source_file`	原始 pickle 文件
`episode_in_file`	该 pickle 文件中的片段索引
`step`	片段内的转移索引
`obs`	时刻 `t` 的状态，形状 `[12]`
`act`	时刻 `t` 的动作，形状 `[4]`
`next_obs`	时刻 `t+1` 的状态，形状 `[12]`
`rew`	全零占位奖励
`terminal`	仅在终止片段的最后一个转移为 `true`

观测值布局（obs）

text [ball_x, ball_y, ball_vx, ball_vy, peg1_x, peg1_y, peg2_x, peg2_y, peg1_vx, peg1_vy, peg2_vx, peg2_vy]

动作布局（act）

text [peg1_vx, peg1_vy, peg2_vx, peg2_vy]

Pickle 格式

原始 pickle 文件位于以下目录：

human/trajectories/
human_augmented/trajectories/
synthetic/trajectories/

片段字段

obs: float32 数组，形状 [T + 1, 12]
acts: float32 数组，形状 [T, 4]
rews: float32 数组，形状 [T]（若存在）
infos: 可选的每步元数据
terminal: 片段是否自然结束

原始容器类型

层级	容器类型
`human`	`imitation.data.types.TrajectoryWithRew`
`human_augmented`	`imitation.data.types.Trajectory`
`synthetic`	纯 Python `dict`

注意：human 和 human_augmented 的 pickle 文件需要兼容的 Python 环境（安装 imitation 库）；synthetic 的 pickle 仅使用普通字典和 NumPy 数组。

奖励信号

数据集中没有有意义的逐步奖励信号。rew / rews 为全零占位符，不应用于离线强化学习的回报计算、过滤或评分。

两种格式并存的原因

Pickle 文件: 原始片段对象，适用于期望 imitation.data.types.Trajectory / TrajectoryWithRew 对象的模仿学习代码。
Parquet 文件: 镜像的转移表，更安全、更易于检查，兼容 Hugging Face Datasets、pandas、Polars、DuckDB、PyArrow、浏览器预览和 Croissant 兼容工具。

引用

bibtex @article{klasktron2026, title={KlaskTron: A Contact-Rich, Adversarial Benchmark for Imitation Learning}, author={Anonymous}, year={2026}, note={Under review at NeurIPS 2026} }

搜集汇总

数据集介绍

构建方式

KlaskTron数据集专为模仿学习与机器人控制领域设计，基于Klask对抗性桌面游戏环境构建。数据集的构建遵循三层次递进策略：首先，通过采集111段人类玩家的真实操作轨迹，并利用仿真坐标重估计技术，形成基础人类层；其次，运用轴向镜像增强技术，沿无增强、x轴、y轴及xy轴四方向对原始轨迹进行四倍扩充，生成增强人类层；最后，基于专家级策略在仿真环境中大规模生成34,649条合成轨迹，累计超过五百万动作步骤，构成合成层。三种数据形式均以Parquet格式与Pickle格式双重保存，便于不同工具的加载与分析。

特点

该数据集最显著的特点在于其多层次结构与多模态数据支持，覆盖从真实人类到合成策略的广泛行为分布。每一条转换记录均包含精细的状态观测向量，涵盖球与双挡板的位置、速度等12维观测空间，以及4维挡板速度动作空间。数据清晰标注了层级来源、轨迹编号及转换步数，且所有奖励字段均设为零，强调其面向模仿学习而非强化学习的回归与策略学习任务。此外，Parquet与Pickle双格式设计兼顾了安全性与兼容性，为机器学习工作流提供了灵活的接入选择。

使用方法

用户可通过Hugging Face Datasets库便捷加载数据，例如使用`load_dataset("KlaskLab/klasktron-il-benchmark", "human", split="train")`调用人类层数据，或类似方式获取增强层与合成层。每行Parquet数据代表一个环境转换，包含观测、动作、下一观测及终止标志等字段。对于偏好原始轨迹对象的场景，Pickle文件存储了完整的回合数据，但需注意人类及增强层需配置包含imitation库的Python环境。该数据集适合用于行为克隆、逆强化学习及对抗性模仿学习等任务的基准测试与模型训练。

背景与挑战

背景概述

KlaskTron是一个面向模仿学习(Imitation Learning)的专用基准数据集，于2026年由匿名研究团队创建，目前正在NeurIPS 2026审稿中。该数据集聚焦于接触丰富且具有对抗性的Klask游戏环境，旨在解决强化学习与机器人控制领域中从人类演示到策略泛化的关键瓶颈。KlaskTron提供了三层递进式数据：来自真实人类玩家的111条轨迹、通过轴向镜像增强的444条扩展轨迹，以及基于专家策略仿真生成的超过34,000条大规模合成轨迹，总计超过540万步动作。该数据集填补了接触丰富物理交互场景下标准化模仿学习基准的空白，尤其为研究从少量人类演示到大规模仿真数据的迁移学习提供了高质量资源，对推动数据驱动控制策略在动态对抗环境中的发展具有重要影响。

当前挑战

KlaskTron所解决的领域核心挑战在于模仿学习在接触丰富(contact-rich)动态环境中面临的数据稀缺性与策略泛化难题。首先，该环境具有高维连续状态空间与瞬时接触动力学，使得从有限人类演示中提取鲁棒策略极为困难。其次，数据集构建过程中遭遇了显著难题：真实人类轨迹的采集需在物理仿真中精确重估坐标，111条原始演示数据远不足以覆盖游戏状态空间；为克服此局限，研究者采用轴向镜像增强技术将数据扩展4倍，但增强数据的物理合理性与多样性仍需验证。此外，大规模合成数据的生成依赖于专家策略假设与仿真器保真度，可能引入分布偏移，导致策略在真实环境中泛化失败。最后，数据集中缺乏有效奖励信号（零占位符），使得离线强化学习方法的直接应用受到限制，必须依赖纯模仿学习框架进行评估与优化。

常用场景

经典使用场景

在机器人学习与模仿学习研究的交汇处，KlaskTron数据集以其独特的三层结构脱颖而出，成为评估智能体从人类演示中学习控制策略的经典基准。该数据集基于Klask桌面游戏环境，记录了真实人类玩家的操作轨迹，并通过轴对称增强生成更大规模的演示数据，进而由专家级策略在模拟器中产生数以万计的合成轨迹。研究者可借助该数据集的多样本规模和标准化的状态-动作映射，训练诸如行为克隆、逆强化学习以及生成式对抗模仿学习等主流算法，从而在接触丰富且对抗性强的动力系统中检验算法的性能与泛化能力。

解决学术问题

KlaskTron数据集精准回应了模仿学习领域中一个长期存在的痛点：缺乏兼具接触动力复杂度与大规模高质量演示的标准化基准。现有数据集或受限于低维控制任务，或难以覆盖真实玩家行为与合成策略之间的鸿沟。KlaskTron通过融合人类真实演示、数据增强与专家合成轨迹，为研究者提供了横跨经验层次与样本规模的可比平台。这一设计使得学术界能够系统性地探讨模仿学习中数据质量与数量之间的权衡，揭示人类演示稀疏性与策略偏差对算法收敛的影响，并推动对高维、非平滑动力学环境下学习范式鲁棒性的理解。

衍生相关工作

KlaskTron数据集的发布催生了一系列围绕模仿学习与对抗性控制的延伸性工作。研究者基于其三层演示结构，开展了关于数据增强策略对行为克隆性能影响的系统性实验，揭示了镜像对称变换在提升样本效率方面的显著作用。也有工作将该数据集整合进多任务模仿学习框架，探索跨任务知识迁移的可能性。此外，KlaskTron被用作评估逆强化学习算法对奖励函数重构能力的测试平台，推动了接触富集的奖励模型设计。该数据集还启发了若干关于合成数据与真实人类数据差异性的研究，提出了混合训练策略与域适应技术，为构建更具泛化能力的学习器奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集