minecraft-vla-stage2

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/TESS-Computer/minecraft-vla-stage2

下载链接

链接失效反馈

官方服务：

资源简介：

TESS Minecraft VLA - Stage 2 (Instruction-Following) 是一个用于训练视觉-语言-动作（VLA）模型在Minecraft游戏中遵循自然语言指令的数据集。该数据集是TESS Minecraft VLA的第二阶段，建立在第一阶段的基础上，增加了自然语言指令，使模型能够进行任务条件控制。数据集包含图像（玩家看到的画面）、指令（玩家应该执行的任务）、动作（玩家实际执行的操作）和任务类别（来自JARVIS标签的任务类型）等信息。数据集的目标是训练模型理解视觉场景、解析自然语言指令并生成适当的动作序列。

创建时间：

2025-12-05

原始信息汇总

TESS Minecraft VLA - Stage 2 (Instruction-Following) 数据集概述

数据集基本信息

数据集名称: TESS-Computer/minecraft-vla-stage2
主要用途: 训练视觉-语言-动作模型遵循《我的世界》游戏中的自然语言指令
任务类别: 机器人学、强化学习
语言: 英语
标签: minecraft, vla, lumine, vision-language-action, imitation-learning, instruction-following
规模类别: 1M<n<10M
许可证: MIT License

数据集概述

本数据集是TESS Minecraft VLA训练的第二阶段，在TESS-Computer/minecraft-vla-stage1的基础上增加了自然语言指令，用于教授模型任务条件控制。它遵循Lumine配方的三阶段VLA训练流程中的第二阶段。

数据创建与来源

基础数据源: 来自TESS-Computer/minecraft-vla-stage1的VPT 5Hz提取数据
指令标签源: CraftJarvis/minecraft-vla-sft数据集（约60万条带指令标签的样本）
匹配过程: 通过帧率转换（JARVIS的20Hz帧到Stage 1的5Hz帧）将JARVIS指令标签与Stage 1的帧进行匹配，仅包含有匹配JARVIS指令的Stage 1样本

数据结构与格式

每个训练样本包含以下字段：

列名	类型	描述	示例
`id`	字符串	唯一标识符：`{video}_{frame}`	`Player129-f153ac423f61-20210617-171344_25`
`video_id`	字符串	源视频名称	`Player129-f153ac423f61-20210617-171344`
`frame_idx`	整数	5Hz下的帧索引	`25`
`instruction`	字符串	自然语言任务描述	`"mine the oak log"`
`action`	字符串	Lumine 4块格式的动作字符串	`<
`task_category`	字符串	JARVIS提供的任务类型	`"mine"`
`image_bytes`	二进制	JPEG格式的屏幕截图	约60KB字节

任务类别

JARVIS在task_category字段中提供以下任务类别：

类别	描述	示例指令
`mine`	破坏方块	"mine the oak log"
`craft`	制作物品	"craft wooden planks"
`smelt`	使用熔炉	"smelt iron ore"
`combat`	与生物战斗	"attack the zombie"
`navigation`	移动	"go to the village"
`interact`	使用物体	"open the chest"

动作格式

动作采用Lumine格式，包含4个时间块（每块约50ms，总计200ms）：

<|action_start|> mouse_x mouse_y scroll ; K1 ; K2 ; K3 ; K4 <|action_end|>

关键按键缩写

按键	《我的世界》动作
`W`	前进
`A`	向左平移
`S`	后退
`D`	向右平移
`Space`	跳跃
`Shift`	潜行
`Ctrl`	冲刺
`LMB`	攻击/挖掘
`RMB`	使用/放置
`E`	物品栏
`1-9`	快捷栏槽位

统计信息（估计值）

有JARVIS重叠的视频数: 约924个（约占Stage 1的4,755个视频的19.4%）
匹配率: 约15-20%的Stage 1样本具有JARVIS指令
预期样本数: 约200-300万（Stage 1中具有指令匹配的子集）
样本平均大小: 约60KB（图像+文本）
数据集总大小: 约150-200GB

训练目标

输入: 图像 + 指令（玩家所见 + 需要执行的任务）
输出: 动作字符串（如何执行）

模型学习：看到此屏幕截图 + 听到"mine the oak log" → 执行此动作序列

与Stage 1的关键差异

方面	Stage 1	Stage 2
指令	无	自然语言
任务类别	无	来自JARVIS标签
数据源	所有VPT 6.x帧	仅具有JARVIS匹配的帧
目的	基础视觉运动控制	任务条件控制

使用方式

python from datasets import load_dataset

加载数据集

ds = load_dataset("TESS-Computer/minecraft-vla-stage2", split="train", streaming=True)

遍历样本

for sample in ds: image_bytes = sample[image_bytes] # JPEG屏幕截图 instruction = sample[instruction] # "mine the oak log" action = sample[action] # Lumine动作字符串 task_category = sample[task_category] # "mine"

许可证信息

MIT许可证。该数据集结合了：

VPT承包商数据（OpenAI，研究用途）
JARVIS指令标签（CraftJarvis）
我们的Lumine格式动作编码（TESS Computer）

引用要求

使用本数据集时，请引用提供的BibTeX条目，包括本数据集、Lumine配方、JARVIS-VLA和VPT基础数据源。

搜集汇总

数据集介绍

构建方式

在视觉语言动作模型的研究领域，构建高质量的指令遵循数据集对于提升智能体在复杂环境中的任务执行能力至关重要。minecraft-vla-stage2数据集作为Lumine三阶段训练框架中的第二阶段，其构建过程体现了严谨的数据融合与对齐策略。该数据集以TESS-Computer/minecraft-vla-stage1为基础，通过精确的帧匹配算法，将CraftJarvis/minecraft-vla-sft中约60万条自然语言指令标签与原始视觉动作序列进行关联。具体而言，利用视频ID、帧索引及采样率转换，将JARVIS标注的20Hz帧映射至Stage1的5Hz帧上，仅保留那些成功匹配指令的样本，从而确保了视觉观察、语言指令与动作执行三者间的高度一致性。

使用方法

在具体应用层面，该数据集为训练指令遵循型智能体提供了标准化的接口与流程。研究人员可通过Hugging Face的datasets库直接加载数据集，采用流式读取方式高效处理大规模样本。每个样本包含图像字节流、指令字符串、动作编码及任务类别等字段，用户可据此构建以“图像+指令”为输入、“动作序列”为输出的监督学习框架。模型训练旨在学习从视觉场景和语言描述到具体动作的映射关系，例如，给定一张游戏画面和“制作木板”的指令，模型应能输出包含前进、点击等操作的连贯动作字符串。这种使用方法直接支持了在《我的世界》等开放世界环境中开发能够理解并执行复杂自然语言命令的通用智能体。

背景与挑战

背景概述

在具身智能与视觉语言动作模型蓬勃发展的背景下，TESS Minecraft VLA Stage 2数据集应运而生，旨在解决开放世界环境中智能体遵循自然语言指令执行复杂任务的核心难题。该数据集由TESS Computer团队于2025年构建，作为Lumine三阶段训练范式的关键组成部分，其核心研究问题聚焦于如何将视觉感知、语言理解与动作执行进行深度融合，以实现任务条件化的精确控制。它基于先前的Stage 1基础控制数据集，并整合了来自JARVIS-VLA项目的指令标注，为训练能够理解并执行“挖掘橡木”或“攻击僵尸”等多样化指令的通用智能体提供了大规模、高质量的仿真数据，显著推动了在《我的世界》等复杂3D环境中指令跟随智能体的研究进程。

当前挑战

该数据集旨在攻克视觉语言动作模型在开放世界游戏环境中实现精准指令跟随的挑战。具体而言，模型需要同时解析高维视觉场景的语义信息与自然语言指令的复杂意图，并生成精确、时序协调的低层级动作序列，这对跨模态对齐与动作规划提出了极高要求。在构建过程中，团队面临多重技术挑战：首先，需将来自不同源（VPT原始视频与JARVIS指令标注）且采样频率各异的数据进行精确时空对齐，匹配率仅约15-20%，数据整合复杂度高；其次，动作编码需采用统一的Lumine四块格式以表征200毫秒内的连续操作，这要求对原始游戏输入进行精细的离散化与标准化处理，确保动作表示的准确性与可学习性。

常用场景

经典使用场景

在视觉语言动作模型的研究领域，minecraft-vla-stage2数据集被广泛应用于指令跟随任务的训练与评估。该数据集通过将自然语言指令与游戏画面及对应动作序列精确对齐，构建了从视觉感知到动作执行的映射关系。研究者利用该数据集训练模型理解复杂的三维开放世界场景，并依据文本指令生成精确的时序动作控制序列，为构建通用型智能体提供了关键的训练基础。

解决学术问题

该数据集有效解决了视觉语言动作模型中指令理解与动作生成的耦合难题。传统方法往往面临视觉表征与语言语义对齐不精确的问题，而该数据集提供的多模态对齐样本使得模型能够学习在动态环境中解析任务指令并规划相应动作序列。其意义在于推动了具身智能领域从基础运动控制向任务导向型决策的演进，为研究开放世界中的自适应行为提供了标准化基准。

实际应用

在实际应用层面，基于该数据集训练的模型可部署于游戏自动化、虚拟助手培训及机器人操作仿真等场景。例如在游戏开发中，能够构建理解自然语言命令的智能非玩家角色；在机器人领域，可通过模拟环境训练机械臂执行“抓取物体”“移动至指定位置”等复杂操作指令。这种从虚拟到现实的迁移能力，为智能系统的实际部署提供了安全且高效的训练途径。

数据集最近研究