JARVIS-VLA Dataset

Name: JARVIS-VLA Dataset
Creator: 北京大学
Published: 2025-03-21 01:21:58
License: 暂无描述

arXiv2025-03-21 更新2025-03-22 收录

下载链接：

https://craftjarvis.github.io/JarvisVLA

下载链接

链接失效反馈

官方服务：

资源简介：

JARVIS-VLA数据集是由北京大学等机构创建的多模态数据集，包含超过740万帧的Minecraft游戏画面数据，以及用于增强模型决策能力的知识问答、视觉语言对齐和空间定位等非轨迹任务数据。该数据集旨在通过模仿学习，提升视觉语言模型在开放世界环境中的决策制定能力。

The JARVIS-VLA dataset is a multimodal dataset created by Peking University and other institutions. It contains over 7.4 million frames of Minecraft gameplay footage, as well as non-trajectory task data including knowledge QA, vision-language alignment and spatial localization to enhance models' decision-making capabilities. This dataset aims to improve the decision-making ability of vision-language models in open-world environments through imitation learning.

提供机构：

北京大学

创建时间：

2025-03-21

搜集汇总

数据集介绍

构建方式

JARVIS-VLA数据集的构建采用了多阶段的视觉语言后训练范式（ActVLP），旨在增强视觉语言模型（VLM）在开放世界环境中的决策能力。首先，模型通过大规模文本数据集进行语言后训练，以增强对下游任务环境的理解。随后，模型在视觉语言对齐和空间定位数据集上进行多模态后训练，以提升视觉与语言的融合能力。最后，模型在轨迹数据集上进行模仿学习，生成与人类指令一致的动作。整个训练过程分为三个阶段：语言后训练、视觉语言后训练和轨迹模仿学习，确保了模型在复杂环境中的灵活性和泛化能力。

特点

JARVIS-VLA数据集的特点在于其多模态和多任务的特性。数据集涵盖了超过1000种不同的原子任务，包括制作、冶炼、烹饪、采矿和击杀等，覆盖了Minecraft游戏中的广泛操作。数据集的构建不仅依赖于轨迹数据，还引入了非轨迹任务数据集，如知识问答、视觉语言对齐和空间定位任务，以增强模型的世界知识、视觉识别和空间定位能力。此外，数据集还包含了超过740万帧的Minecraft游戏画面和专家动作数据，确保了模型在复杂环境中的高效学习和决策能力。

使用方法

JARVIS-VLA数据集的使用方法主要分为三个阶段：首先，模型在非轨迹任务上进行视觉语言后训练，以增强其世界知识和视觉语言对齐能力；其次，模型在轨迹数据集上进行模仿学习，生成与人类指令一致的动作；最后，模型在开放世界环境中进行任务执行评估。数据集的使用不仅限于模仿学习，还可以用于评估模型在多任务决策、视觉理解和空间定位等方面的能力。通过这种分阶段的训练方法，模型能够在复杂环境中表现出色，并能够灵活应对各种任务挑战。

背景与挑战

背景概述

JARVIS-VLA数据集由北京大学和BIGAI的研究团队于2025年3月发布，旨在通过视觉语言动作（VLA）模型在开放世界环境中进行基于动作的决策任务。该数据集的核心研究问题是如何通过视觉和语言的自我监督指导，增强视觉语言模型（VLM）在世界知识、视觉识别和空间定位方面的能力。研究团队提出了一种名为ActVLP的训练范式，通过在视觉语言任务上进行后训练，显著提升了模型在Minecraft等开放世界环境中的多任务决策能力。JARVIS-VLA模型在超过1000个不同的原子任务上表现出色，包括制作、冶炼、烹饪、采矿和击杀等任务，展示了其在复杂环境中的强大适应性。

当前挑战

JARVIS-VLA数据集面临的挑战主要集中在两个方面。首先，在领域问题方面，尽管VLA模型在开放世界环境中的决策任务上表现出色，但其在多任务决策和未见任务上的泛化能力仍然有限。传统的模仿学习方法依赖于下一动作预测，难以应对复杂的环境交互和任务多样性。其次，在数据集构建过程中，研究团队面临了大规模动作标注数据的稀缺性问题。为了克服这一挑战，团队采用了非轨迹视觉语言任务进行后训练，并通过多阶段训练管道逐步增强模型的世界知识和视觉语言对齐能力。此外，数据集的构建还涉及复杂的视觉语言对齐和空间定位任务，这些任务需要高精度的标注和数据处理，进一步增加了数据集构建的难度。

常用场景

经典使用场景

JARVIS-VLA数据集在视觉语言动作（VLA）模型的研究中具有重要应用，尤其是在开放世界环境中的决策任务。该数据集通过结合视觉和语言指导，以自监督的方式对视觉语言模型（VLM）进行后训练，显著提升了模型在开放世界环境中的世界知识、视觉识别和空间定位能力。经典的使用场景包括在Minecraft游戏中执行超过1000种不同的原子任务，如制作、冶炼、烹饪、采矿和击杀等。

解决学术问题

JARVIS-VLA数据集解决了传统模仿学习在开放世界环境中多任务决策能力不足的问题。通过引入视觉语言后训练（ActVLP）范式，该数据集显著提升了模型在复杂环境中的理解和决策能力。实验表明，基于非轨迹任务的后训练使得模型在多种原子任务上的表现比最佳基线模型提升了40%。这一突破为视觉语言动作模型的研究提供了新的方向，尤其是在开放世界环境中的应用。

衍生相关工作

JARVIS-VLA数据集衍生了一系列相关研究工作，尤其是在视觉语言动作模型领域。基于该数据集的研究成果，许多后续工作进一步探索了视觉语言模型在开放世界环境中的应用。例如，OpenVLA和RoboVLM等模型借鉴了JARVIS-VLA的后训练范式，提升了模型在机器人控制和虚拟环境中的表现。此外，该数据集的开源也促进了更多研究者在该领域的创新，推动了视觉语言动作模型的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集