five

JARVIS-VLA Dataset|人工智能数据集|视觉语言处理数据集

收藏
arXiv2025-03-21 更新2025-03-22 收录
人工智能
视觉语言处理
下载链接:
https://craftjarvis.github.io/JarvisVLA
下载链接
链接失效反馈
资源简介:
JARVIS-VLA数据集是由北京大学等机构创建的多模态数据集,包含超过740万帧的Minecraft游戏画面数据,以及用于增强模型决策能力的知识问答、视觉语言对齐和空间定位等非轨迹任务数据。该数据集旨在通过模仿学习,提升视觉语言模型在开放世界环境中的决策制定能力。
提供机构:
北京大学
创建时间:
2025-03-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
JARVIS-VLA数据集的构建采用了多阶段的视觉语言后训练范式(ActVLP),旨在增强视觉语言模型(VLM)在开放世界环境中的决策能力。首先,模型通过大规模文本数据集进行语言后训练,以增强对下游任务环境的理解。随后,模型在视觉语言对齐和空间定位数据集上进行多模态后训练,以提升视觉与语言的融合能力。最后,模型在轨迹数据集上进行模仿学习,生成与人类指令一致的动作。整个训练过程分为三个阶段:语言后训练、视觉语言后训练和轨迹模仿学习,确保了模型在复杂环境中的灵活性和泛化能力。
特点
JARVIS-VLA数据集的特点在于其多模态和多任务的特性。数据集涵盖了超过1000种不同的原子任务,包括制作、冶炼、烹饪、采矿和击杀等,覆盖了Minecraft游戏中的广泛操作。数据集的构建不仅依赖于轨迹数据,还引入了非轨迹任务数据集,如知识问答、视觉语言对齐和空间定位任务,以增强模型的世界知识、视觉识别和空间定位能力。此外,数据集还包含了超过740万帧的Minecraft游戏画面和专家动作数据,确保了模型在复杂环境中的高效学习和决策能力。
使用方法
JARVIS-VLA数据集的使用方法主要分为三个阶段:首先,模型在非轨迹任务上进行视觉语言后训练,以增强其世界知识和视觉语言对齐能力;其次,模型在轨迹数据集上进行模仿学习,生成与人类指令一致的动作;最后,模型在开放世界环境中进行任务执行评估。数据集的使用不仅限于模仿学习,还可以用于评估模型在多任务决策、视觉理解和空间定位等方面的能力。通过这种分阶段的训练方法,模型能够在复杂环境中表现出色,并能够灵活应对各种任务挑战。
背景与挑战
背景概述
JARVIS-VLA数据集由北京大学和BIGAI的研究团队于2025年3月发布,旨在通过视觉语言动作(VLA)模型在开放世界环境中进行基于动作的决策任务。该数据集的核心研究问题是如何通过视觉和语言的自我监督指导,增强视觉语言模型(VLM)在世界知识、视觉识别和空间定位方面的能力。研究团队提出了一种名为ActVLP的训练范式,通过在视觉语言任务上进行后训练,显著提升了模型在Minecraft等开放世界环境中的多任务决策能力。JARVIS-VLA模型在超过1000个不同的原子任务上表现出色,包括制作、冶炼、烹饪、采矿和击杀等任务,展示了其在复杂环境中的强大适应性。
当前挑战
JARVIS-VLA数据集面临的挑战主要集中在两个方面。首先,在领域问题方面,尽管VLA模型在开放世界环境中的决策任务上表现出色,但其在多任务决策和未见任务上的泛化能力仍然有限。传统的模仿学习方法依赖于下一动作预测,难以应对复杂的环境交互和任务多样性。其次,在数据集构建过程中,研究团队面临了大规模动作标注数据的稀缺性问题。为了克服这一挑战,团队采用了非轨迹视觉语言任务进行后训练,并通过多阶段训练管道逐步增强模型的世界知识和视觉语言对齐能力。此外,数据集的构建还涉及复杂的视觉语言对齐和空间定位任务,这些任务需要高精度的标注和数据处理,进一步增加了数据集构建的难度。
常用场景
经典使用场景
JARVIS-VLA数据集在视觉语言动作(VLA)模型的研究中具有重要应用,尤其是在开放世界环境中的决策任务。该数据集通过结合视觉和语言指导,以自监督的方式对视觉语言模型(VLM)进行后训练,显著提升了模型在开放世界环境中的世界知识、视觉识别和空间定位能力。经典的使用场景包括在Minecraft游戏中执行超过1000种不同的原子任务,如制作、冶炼、烹饪、采矿和击杀等。
解决学术问题
JARVIS-VLA数据集解决了传统模仿学习在开放世界环境中多任务决策能力不足的问题。通过引入视觉语言后训练(ActVLP)范式,该数据集显著提升了模型在复杂环境中的理解和决策能力。实验表明,基于非轨迹任务的后训练使得模型在多种原子任务上的表现比最佳基线模型提升了40%。这一突破为视觉语言动作模型的研究提供了新的方向,尤其是在开放世界环境中的应用。
衍生相关工作
JARVIS-VLA数据集衍生了一系列相关研究工作,尤其是在视觉语言动作模型领域。基于该数据集的研究成果,许多后续工作进一步探索了视觉语言模型在开放世界环境中的应用。例如,OpenVLA和RoboVLM等模型借鉴了JARVIS-VLA的后训练范式,提升了模型在机器人控制和虚拟环境中的表现。此外,该数据集的开源也促进了更多研究者在该领域的创新,推动了视觉语言动作模型的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

rock-crack and concrete-crack dataset, CT-slice-crack dataset

岩石裂缝与CT岩心裂缝语义分割数据集,用于识别道路、建筑物和其他民用结构上的裂缝。

github 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

K-Lane

K-Lane是世界上首个也是最大的公共城市道路和高速公路激光雷达车道数据集,包含超过1.5万个帧,涵盖了多达六个车道的标注,适应于多种道路和交通条件,如多级遮挡道路、白天和夜晚道路、合并(收敛和发散)以及弯曲车道。

arXiv 收录