F1 Vision-Language-Action Model Dataset

Name: F1 Vision-Language-Action Model Dataset
Creator: 上海人工智能实验室, 哈尔滨工业大学(深圳)
Published: 2025-09-09 01:58:30
License: 暂无描述

arXiv2025-09-09 更新2025-09-10 收录

下载链接：

https://aopolin-lv.github.io/F1-VLA, https://github.com/InternRobotics/F1-VLA, https://huggingface.co/

下载链接

链接失效反馈

官方服务：

资源简介：

F1 视觉-语言-动作模型数据集是由上海人工智能实验室和哈尔滨工业大学(深圳)联合创建的一个大型数据集，包含超过33万个轨迹，涵盖136项不同的任务。该数据集用于训练一个名为 F1 的视觉-语言-动作模型，该模型通过结合理解、预测和执行，能够使机器人在复杂的动态环境中根据语言指令进行规划并执行动作。

The F1 Vision-Language-Action Model Dataset is a large-scale dataset jointly created by the Shanghai AI Laboratory and Harbin Institute of Technology (Shenzhen). It contains over 330,000 trajectories and covers 136 distinct tasks. This dataset is designed for training the F1 Vision-Language-Action Model, which integrates comprehension, prediction and execution capabilities, enabling robots to plan and execute actions in accordance with language instructions in complex dynamic environments.

提供机构：

上海人工智能实验室, 哈尔滨工业大学(深圳)

创建时间：

2025-09-09

搜集汇总

数据集介绍

构建方式

F1 Vision-Language-Action Model Dataset通过整合大规模开源机器人数据集与内部高质量示范轨迹构建而成，涵盖超过33万条轨迹与136项多样化任务。数据采集覆盖Genie-G1、Franka、WidowX等多机器人平台，融合第三方视角与腕部摄像头画面，帧率介于3至30FPS之间，确保视觉动态与动作执行的时空一致性。构建过程采用三阶段训练范式，首先通过互联网数据集注入视觉前瞻能力，随后利用公开机器人数据预训练共享表征，最终通过任务特定数据微调实现跨平台适配。

使用方法

数据集的使用遵循三阶段渐进式训练框架。第一阶段冻结理解专家并训练生成专家，通过教师强制学习实现视觉token与语义空间的对齐；第二阶段联合优化理解、生成与动作专家，采用自回归下一尺度预测与流匹配动作目标，在大规模机器人数据上学习通用视觉运动知识；第三阶段针对特定任务与平台进行微调，通过少量高质量示范数据实现跨 embodiment 快速适配。推理时生成专家预测四尺度未来视觉目标，动作专家基于当前观察与预测帧通过逆动力学建模输出动作块，实现实时闭环控制。

背景与挑战

背景概述

F1 Vision-Language-Action Model Dataset由上海人工智能实验室与哈尔滨工业大学（深圳）联合团队于2025年创建，旨在推动具身智能在动态视觉环境中的语言条件任务执行。该数据集聚焦于解决传统视觉-语言-动作模型依赖反应式状态-动作映射导致的短视行为和动态场景鲁棒性不足问题，通过整合视觉前瞻生成机制，将动作生成重构为基于预测的逆向动力学问题。其包含超过33万条轨迹和136项多样化任务，涵盖从基础抓取到长时程协作的复杂操作，为多模态推理和跨任务泛化提供了重要支撑。

当前挑战

该数据集核心挑战在于动态环境下的长时程任务规划与视觉-动作对齐。领域层面需克服反应式策略在物体移动、指令时序展开等动态因素下的脆弱性，实现语义 grounding 与时序一致性的统一；构建过程需处理多尺度视觉 token 预测的计算效率与精度平衡，以及跨5种机器人平台和不同视角数据的异构整合。此外，目标条件的前瞻生成需在保持场景一致性和物体准确性的同时，确保预测帧能为下游控制提供有效行动指引。

常用场景

经典使用场景

在具身智能领域，F1 Vision-Language-Action 数据集被广泛应用于动态视觉环境中的语言条件任务执行研究。该数据集通过整合超过33万条轨迹和136项多样化任务，为模型提供了丰富的多模态交互数据，支持视觉预测与动作生成的联合优化。其经典使用场景包括机器人抓取、物体搬运和长时程操作任务，尤其在需要时空一致性和环境适应性的复杂场景中表现卓越。

解决学术问题

该数据集有效解决了传统视觉-语言-动作模型中存在的短视行为和动态场景鲁棒性不足等核心学术问题。通过引入目标条件视觉预测机制，将动作生成重构为前瞻引导的逆动力学问题，显著提升了模型在长时程任务和分布外泛化中的性能。其意义在于建立了理解、生成与执行之间的统一框架，为具身智能的认知完整性研究提供了重要基础。

实际应用

在实际应用层面，该数据集支撑的模型已成功部署于多机器人平台（如Genie-1、Franka和ARX LIFT II），应用于精细操作、动态抓取和工业流水线任务。在厨房环境移动 conveyor belt 的动态抓取任务中实现了66.7%的成功率，在双臂协调操作中达到93.3%的交互精度，证明了其在真实世界复杂场景中的实用价值。

数据集最近研究