Vision-Language-Action Instruction Tuning (VLA-IT)

Name: Vision-Language-Action Instruction Tuning (VLA-IT)
Creator: 中国科学技术大学, 浙江大学, 上海人工智能实验室
Published: 2025-07-23 21:57:06
License: 暂无描述

arXiv2025-07-23 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/ShuaiYang03/VLA_Instruction_Tuning

下载链接

链接失效反馈

官方服务：

资源简介：

VLA-IT数据集由上海人工智能实验室创建，包含650,000个人工标注的人机交互数据，这些数据被标注了多样的指令、场景描述和问答对，并基于高质量的操控任务。数据集的创建过程采用了两阶段范式：首先进行动作预训练，然后进行视觉-语言-动作指令调整，以实现文本推理和动作生成的联合优化。VLA-IT数据集旨在解决现有视觉-语言-动作模型在任务特定操控数据上的局限性，并缓解预训练视觉-语言能力的灾难性遗忘问题。数据集的应用领域主要在机器人操控任务中，通过利用视觉-语言理解来提升操控性能，实现直观和可控的人机交互。

The VLA-IT dataset was developed by Shanghai AI Laboratory, consisting of 650,000 manually annotated human-robot interaction data samples. Each sample is annotated with diverse instructions, scene descriptions, and question-answer pairs, and is grounded in high-quality manipulation tasks. The dataset construction adopts a two-stage paradigm: first, action pre-training, followed by vision-language-action instruction tuning, to achieve joint optimization of text reasoning and action generation. The VLA-IT dataset aims to address the limitations of existing vision-language-action models on task-specific manipulation data, and mitigate catastrophic forgetting of pre-trained vision-language capabilities. Its primary application scenarios are robotic manipulation tasks, where visual-language understanding is leveraged to enhance manipulation performance and enable intuitive and controllable human-robot interaction.

提供机构：

中国科学技术大学, 浙江大学, 上海人工智能实验室

创建时间：

2025-07-23

搜集汇总

数据集介绍

构建方式

在机器人操作领域，实现多模态推理与精确动作生成的融合是提升智能体性能的关键。Vision-Language-Action Instruction Tuning (VLA-IT)数据集的构建采用了创新的两阶段训练范式：首先通过动作预训练阶段，利用语言运动描述提取潜在动作表示；随后通过视觉-语言-动作指令调优阶段，采用混合专家（MoE）自适应框架，联合优化文本推理与动作生成。该数据集包含65万条标注样本，涵盖多样化的人类-机器人交互场景，包括场景描述、问答对及基于高质量操作任务的指令。

特点

VLA-IT数据集的核心特点在于其层级化语言标注体系与多模态协同设计。通过融合视觉场景理解（如场景描述生成、基于情境的问答）与指令理解规划（如指令改写、上下文创建），该数据集有效桥接了视觉语言理解与具身任务场景。其标注数据强调指令多样性，包含复杂对象指代、否定任务描述等挑战性场景，并通过GPT-4o生成的精细化标注保证了语言表达的丰富性。此外，数据集采用潜在动作查询机制，实现了高层语义规划与底层动作执行的解耦。

使用方法

该数据集支持端到端的视觉-语言-动作模型训练，特别适用于需要保留预训练视觉语言模型（VLM）能力的同时学习精确动作生成的场景。使用时可分阶段加载：先通过动作预训练数据初始化动作专家模块，再结合VLA-IT数据进行混合专家调优。评估时建议采用其配套的SimplerEnv-Instruct基准测试，包含80项零样本任务，涵盖指令聚合（测试语言多样性理解）与情境推理（测试隐含意图推断）两个层级。对于真实世界部署，可通过冻结动作专家、仅微调VLM模块的方式实现高效适配。

背景与挑战

背景概述

Vision-Language-Action Instruction Tuning (VLA-IT) 数据集由上海人工智能实验室、中国科学技术大学和浙江大学的研究团队于2025年提出，旨在解决机器人操作中多模态推理与精确动作生成的融合问题。该数据集包含65万个人机交互样本，涵盖了多样化的指令、场景描述和问答对，旨在提升机器人在复杂环境中的指令理解和任务执行能力。VLA-IT的提出填补了现有视觉-语言-动作（VLA）模型在通用多模态推理和领域特定操作之间的空白，为机器人技术的进一步发展提供了重要支持。

当前挑战

VLA-IT数据集面临的挑战主要包括两个方面：1) 领域问题的挑战：现有VLA模型在处理复杂指令和多样化任务场景时，常因数据多样性不足而表现不佳，尤其是在需要结合高层次语义理解和低层次动作生成的场景中。2) 构建过程的挑战：数据标注过程中，如何确保指令的多样性和准确性是一大难题，尤其是当依赖大型语言模型（如GPT-4o）生成标注时，模型可能因缺乏实际机器人操作经验而产生错误或不符合实际的指令。此外，如何平衡多模态理解与动作生成的训练目标，避免模型在优化过程中遗忘预训练的多模态能力，也是构建过程中的关键挑战。

常用场景

经典使用场景

在机器人操作与多模态推理领域，Vision-Language-Action Instruction Tuning (VLA-IT) 数据集被广泛应用于训练端到端的视觉-语言-动作模型。该数据集通过整合650K条包含多样化指令、场景描述和问答对的人机交互样本，支持模型在理解复杂指令的同时生成精确的机械臂动作轨迹。典型场景包括家庭服务机器人执行‘打开抽屉后取出指定物品’等长时序任务，其中模型需同步处理视觉输入（如物体位置识别）、语言解析（如指令中的空间关系推理）和动作规划（如抓取力度控制）。

实际应用

该数据集的实际应用覆盖工业与生活场景：在仓储物流中，机器人可依据‘将红色包装盒移至第三货架’等自然语言指令完成分拣；在智能家居场景，系统能理解‘清洁餐桌时避开玻璃杯’等隐含约束。实验表明，基于VLA-IT训练的InstructVLA模型在真实世界部署中，对多语言指令和遮挡场景的鲁棒性较基线提高46.7%，显著降低了人机协作的交互门槛。

衍生相关工作

VLA-IT催生了多个里程碑式研究：1) Magma框架采用其混合训练范式实现多模态与动作的联合优化；2) SimplerEnv-Instruct基准通过引入情境推理任务，推动了机器人指令泛化能力的标准化评估；3) 基于该数据集提出的流匹配动作专家架构，被后续工作如CronusVLA改进为扩散模型以实现更平滑的动作生成。这些衍生成果共同构成了当前通用机器人策略学习的技术基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集