klasktron-il-benchmark
收藏KlaskTron 数据集概述
基本信息
- 数据集名称: KlaskTron
- 许可证: Creative Commons Attribution 4.0 International License (CC-BY-4.0)
- 任务类型: 机器人学(robotics)、强化学习(reinforcement-learning)
- 标签: 模仿学习、强化学习、机器人学、控制、仿真、Klask、Parquet、Pickle、表格数据
- 数据规模: 1M < n < 10M(共 5,402,955 步动作)
数据集构成
KlaskTron 是一个 Klask 模仿学习数据集,包含三个层级:
| 层级 | 片段数 | 步数 | 来源 |
|---|---|---|---|
human |
111 | 80,591 | 从记录的人类对局中重建 |
human_augmented |
444 | 322,364 | 对 human 层级进行轴镜像增强(无、x、y、xy) |
synthetic |
34,649 | 5,000,000 | 在仿真环境中使用专家级策略生成 |
| 总计 | 35,204 | 5,402,955 | — |
数据配置与加载
数据集提供三个配置(config),分别对应三个层级:
human: 数据文件路径parquet/human/*.parquethuman_augmented: 数据文件路径parquet/human_augmented/*.parquetsynthetic: 数据文件路径parquet/synthetic/*.parquet(默认配置)
加载 Parquet 格式示例
python from datasets import load_dataset
human = load_dataset("KlaskLab/klasktron-il-benchmark", "human", split="train") human_augmented = load_dataset("KlaskLab/klasktron-il-benchmark", "human_augmented", split="train") synthetic = load_dataset("KlaskLab/klasktron-il-benchmark", "synthetic", split="train")
数据字段说明(Parquet 格式)
每一行 Parquet 数据代表一次状态转移:
| 字段 | 含义 |
|---|---|
tier |
层级标识:human、human_augmented 或 synthetic |
episode_id |
层级内部的片段 ID |
source_file |
原始 pickle 文件 |
episode_in_file |
该 pickle 文件中的片段索引 |
step |
片段内的转移索引 |
obs |
时刻 t 的状态,形状 [12] |
act |
时刻 t 的动作,形状 [4] |
next_obs |
时刻 t+1 的状态,形状 [12] |
rew |
全零占位奖励 |
terminal |
仅在终止片段的最后一个转移为 true |
观测值布局(obs)
text [ball_x, ball_y, ball_vx, ball_vy, peg1_x, peg1_y, peg2_x, peg2_y, peg1_vx, peg1_vy, peg2_vx, peg2_vy]
动作布局(act)
text [peg1_vx, peg1_vy, peg2_vx, peg2_vy]
Pickle 格式
原始 pickle 文件位于以下目录:
human/trajectories/human_augmented/trajectories/synthetic/trajectories/
片段字段
obs: float32 数组,形状[T + 1, 12]acts: float32 数组,形状[T, 4]rews: float32 数组,形状[T](若存在)infos: 可选的每步元数据terminal: 片段是否自然结束
原始容器类型
| 层级 | 容器类型 |
|---|---|
human |
imitation.data.types.TrajectoryWithRew |
human_augmented |
imitation.data.types.Trajectory |
synthetic |
纯 Python dict |
注意:human 和 human_augmented 的 pickle 文件需要兼容的 Python 环境(安装 imitation 库);synthetic 的 pickle 仅使用普通字典和 NumPy 数组。
奖励信号
数据集中没有有意义的逐步奖励信号。rew / rews 为全零占位符,不应用于离线强化学习的回报计算、过滤或评分。
两种格式并存的原因
- Pickle 文件: 原始片段对象,适用于期望
imitation.data.types.Trajectory/TrajectoryWithRew对象的模仿学习代码。 - Parquet 文件: 镜像的转移表,更安全、更易于检查,兼容 Hugging Face Datasets、pandas、Polars、DuckDB、PyArrow、浏览器预览和 Croissant 兼容工具。
引用
bibtex @article{klasktron2026, title={KlaskTron: A Contact-Rich, Adversarial Benchmark for Imitation Learning}, author={Anonymous}, year={2026}, note={Under review at NeurIPS 2026} }




