minecraft-vla-stage2
收藏TESS Minecraft VLA - Stage 2 (Instruction-Following) 数据集概述
数据集基本信息
- 数据集名称:
TESS-Computer/minecraft-vla-stage2 - 主要用途: 训练视觉-语言-动作模型遵循《我的世界》游戏中的自然语言指令
- 任务类别: 机器人学、强化学习
- 语言: 英语
- 标签: minecraft, vla, lumine, vision-language-action, imitation-learning, instruction-following
- 规模类别: 1M<n<10M
- 许可证: MIT License
数据集概述
本数据集是TESS Minecraft VLA训练的第二阶段,在TESS-Computer/minecraft-vla-stage1的基础上增加了自然语言指令,用于教授模型任务条件控制。它遵循Lumine配方的三阶段VLA训练流程中的第二阶段。
数据创建与来源
- 基础数据源: 来自
TESS-Computer/minecraft-vla-stage1的VPT 5Hz提取数据 - 指令标签源: CraftJarvis/minecraft-vla-sft数据集(约60万条带指令标签的样本)
- 匹配过程: 通过帧率转换(JARVIS的20Hz帧到Stage 1的5Hz帧)将JARVIS指令标签与Stage 1的帧进行匹配,仅包含有匹配JARVIS指令的Stage 1样本
数据结构与格式
每个训练样本包含以下字段:
| 列名 | 类型 | 描述 | 示例 |
|---|---|---|---|
id |
字符串 | 唯一标识符:{video}_{frame} |
Player129-f153ac423f61-20210617-171344_25 |
video_id |
字符串 | 源视频名称 | Player129-f153ac423f61-20210617-171344 |
frame_idx |
整数 | 5Hz下的帧索引 | 25 |
instruction |
字符串 | 自然语言任务描述 | "mine the oak log" |
action |
字符串 | Lumine 4块格式的动作字符串 | `< |
task_category |
字符串 | JARVIS提供的任务类型 | "mine" |
image_bytes |
二进制 | JPEG格式的屏幕截图 | 约60KB字节 |
任务类别
JARVIS在task_category字段中提供以下任务类别:
| 类别 | 描述 | 示例指令 |
|---|---|---|
mine |
破坏方块 | "mine the oak log" |
craft |
制作物品 | "craft wooden planks" |
smelt |
使用熔炉 | "smelt iron ore" |
combat |
与生物战斗 | "attack the zombie" |
navigation |
移动 | "go to the village" |
interact |
使用物体 | "open the chest" |
动作格式
动作采用Lumine格式,包含4个时间块(每块约50ms,总计200ms):
<|action_start|> mouse_x mouse_y scroll ; K1 ; K2 ; K3 ; K4 <|action_end|>
关键按键缩写
| 按键 | 《我的世界》动作 |
|---|---|
W |
前进 |
A |
向左平移 |
S |
后退 |
D |
向右平移 |
Space |
跳跃 |
Shift |
潜行 |
Ctrl |
冲刺 |
LMB |
攻击/挖掘 |
RMB |
使用/放置 |
E |
物品栏 |
1-9 |
快捷栏槽位 |
统计信息(估计值)
- 有JARVIS重叠的视频数: 约924个(约占Stage 1的4,755个视频的19.4%)
- 匹配率: 约15-20%的Stage 1样本具有JARVIS指令
- 预期样本数: 约200-300万(Stage 1中具有指令匹配的子集)
- 样本平均大小: 约60KB(图像+文本)
- 数据集总大小: 约150-200GB
训练目标
- 输入: 图像 + 指令(玩家所见 + 需要执行的任务)
- 输出: 动作字符串(如何执行)
模型学习:看到此屏幕截图 + 听到"mine the oak log" → 执行此动作序列
与Stage 1的关键差异
| 方面 | Stage 1 | Stage 2 |
|---|---|---|
| 指令 | 无 | 自然语言 |
| 任务类别 | 无 | 来自JARVIS标签 |
| 数据源 | 所有VPT 6.x帧 | 仅具有JARVIS匹配的帧 |
| 目的 | 基础视觉运动控制 | 任务条件控制 |
使用方式
python from datasets import load_dataset
加载数据集
ds = load_dataset("TESS-Computer/minecraft-vla-stage2", split="train", streaming=True)
遍历样本
for sample in ds: image_bytes = sample[image_bytes] # JPEG屏幕截图 instruction = sample[instruction] # "mine the oak log" action = sample[action] # Lumine动作字符串 task_category = sample[task_category] # "mine"
相关数据集
- Stage 1(前驱): https://huggingface.co/datasets/TESS-Computer/minecraft-vla-stage1 - 基础视觉运动控制数据
- JARVIS源: https://huggingface.co/datasets/CraftJarvis/minecraft-vla-sft - 指令标签源
- VPT源: OpenAI VPT 6.x承包商数据集 - 原始游戏数据
许可证信息
MIT许可证。该数据集结合了:
- VPT承包商数据(OpenAI,研究用途)
- JARVIS指令标签(CraftJarvis)
- 我们的Lumine格式动作编码(TESS Computer)
引用要求
使用本数据集时,请引用提供的BibTeX条目,包括本数据集、Lumine配方、JARVIS-VLA和VPT基础数据源。




