minecraft-vla-stage1
收藏Minecraft VLA Stage 1: Action Pretraining Data 数据集概述
数据集基本信息
- 许可证:Apache 2.0
- 任务类别:机器人学、图像到文本
- 语言:英语
- 标签:Minecraft、VLA、Video-Language-Action、模仿学习、Lumine、VPT
- 规模类别:1M<n<10M
数据集描述
- 来源:OpenAI VPT 6.x 承包商数据
- 格式:Lumine风格的动作标记(人类可读文本)
- 分辨率:640x360 JPEG帧,采样率5Hz
- 总样本数:约640万帧-动作对(估计值)
- 总视频数:4,755个游戏会话
动作格式
动作采用Lumine文本格式,每200ms帧包含4个时间块:
<|action_start|> mouse_x mouse_y scroll ; K1 ; K2 ; K3 ; K4 <|action_end|>
组成部分:
mouse_x mouse_y:相机增量(-1000至1000)scroll:鼠标滚轮(在Minecraft中始终为0)K1-K4:每个50ms块的按键组合
示例:
<|action_start|> 45 -12 0 ; W ; W Space ; W ; W <|action_end|>
含义:相机向右移动45,向上移动12,在所有块中按住W,在块2按下Space。
按键映射
| 按键 | 动作 |
|---|---|
| W/A/S/D | 移动 |
| Space | 跳跃 |
| Shift | 潜行 |
| Ctrl | 冲刺 |
| LMB | 攻击/挖掘 |
| RMB | 使用/放置 |
| E | 物品栏 |
| Q | 丢弃 |
| 1-9 | 快捷栏槽位 |
数据模式
| 列名 | 类型 | 描述 |
|---|---|---|
id |
字符串 | 唯一样本ID(视频_帧) |
video_id |
字符串 | 源视频标识符 |
frame_idx |
int32 | 视频内的帧索引 |
action |
字符串 | Lumine格式的动作字符串 |
image_bytes |
二进制 | JPEG编码的帧(640x360) |
数据处理流程
- 从OpenAI Blob存储下载VPT 6.x视频
- 使用ffmpeg以5Hz提取帧
- 将20Hz VPT动作转换为4块Lumine格式
- 过滤黑暗/加载帧(<5KB)
- 使用Snappy压缩保存为Parquet分片
训练阶段
这是3阶段VLA训练流程的第1阶段:
| 阶段 | 数据 | 目的 |
|---|---|---|
| 1. 动作预训练 | 本数据集 | 学习基本的视觉运动控制 |
| 2. 任务SFT | JARVIS-VLA + 指令 | 学习任务条件行为 |
| 3. 智能体训练 | 推理轨迹 | 学习规划与分解 |
使用方式
python from datasets import load_dataset
流式加载(大型数据集推荐)
ds = load_dataset("TESS-Computer/minecraft-vla-stage1", split="train", streaming=True)
for sample in ds: image = sample["image_bytes"] # JPEG字节 action = sample["action"] # Lumine格式字符串 # ... 处理样本
引用
如果使用本数据集,请引用: bibtex @misc{tess-minecraft-vla-2025, title={Minecraft VLA: Vision-Language-Action Model for Minecraft}, author={TESS Industries}, year={2025}, url={https://huggingface.co/datasets/TESS-Computer/minecraft-vla-stage1} }
致谢
- OpenAI VPT团队:发布承包商游戏数据
- Lumine团队:提供动作标记化格式
- JARVIS-VLA团队:提供任务条件SFT方法
许可证
Apache 2.0 - 底层VPT数据由OpenAI为研究目的发布。




