FineVLA-Data

Name: FineVLA-Data
Creator: 香港大学·XLANG实验室; 阿里巴巴集团·通义千问团队
Published: 2026-05-27 01:01:10
License: 暂无描述

arXiv2026-05-27 更新2026-05-28 收录

下载链接：

https://finevla.xlang.ai/

下载链接

链接失效反馈

官方服务：

资源简介：

FineVLA-Data是由香港大学和阿里巴巴团队联合构建的细粒度视觉-语言-动作对齐数据集，旨在为机器人操控提供过程级指令监督。该数据集整合了10个开源机器人数据集的97.2万条原始轨迹，经过动态时间规整聚类和人工验证，最终形成包含47,159条代表性轨迹的语料库，每条轨迹的平均指令长度从9.3词扩展至96.8词，实现了10.4倍的信息密度提升。数据集通过四阶段流水线构建：首先统一异构数据格式，然后进行动作状态规范化处理，接着基于DTW相似性聚类选择代表性样本，最后采用十维度细粒度标注框架对动作序列、执行主体、接触区域等关键执行因素进行结构化描述。该数据集主要应用于可操控VLA策略训练和机器人视频理解，解决了传统机器人数据集仅包含粗粒度目标指令而缺乏执行细节指导的问题，为机器人学习人类指定的执行约束提供了数据基础。

FineVLA-Data is a fine-grained vision-language-action (VLA) alignment dataset jointly constructed by teams from The University of Hong Kong and Alibaba, aiming to provide process-level instruction supervision for robotic manipulation. This dataset integrates 972,000 original trajectories from 10 open-source robotic datasets. After Dynamic Time Warping (DTW) clustering and manual verification, it finally forms a corpus containing 47,159 representative trajectories. The average instruction length per trajectory has been expanded from 9.3 words to 96.8 words, achieving a 10.4-fold improvement in information density. The dataset is built via a four-stage pipeline: first, unify heterogeneous data formats; second, normalize action states; third, select representative samples through DTW-based similarity clustering; and fourth, adopt a ten-dimensional fine-grained annotation framework to structurally describe key execution factors such as action sequences, execution subjects and contact areas. This dataset is mainly applied to the training of controllable VLA policies and robotic video understanding, solving the problem that traditional robotic datasets only contain coarse-grained target instructions but lack guidance on execution details, and providing a solid data foundation for robots to learn execution constraints specified by humans.

提供机构：

香港大学·XLANG实验室; 阿里巴巴集团·通义千问团队

创建时间：

2026-05-27

原始信息汇总

数据集概述

FineVLA 是一个全开源框架，旨在实现精细粒度的动作-指令对齐，连接了精细数据构建、机器人视频理解、可扩展标注和可操控的 VLA 策略学习。

核心组成

FineVLA-Tool & FineVLA-Data：统一了来自 10 个数据集的 972,247 条轨迹，并构建了 47,159 条经过人工验证的精细粒度轨迹。
RoboFine-Bench：一个保留基准，包含 500 个视频、10,816 条原子事实和 1,030 个 VQA 问题。
RoboFine-VLM：一个专为机器人领域设计的视觉语言模型（VLM）标注器。
FineVLA-Policy：一种可操控的策略，通过控制精细粒度和原始目标级指令的混合比例进行训练。

数据规模与关键统计

指标	数值
Trajectories	47,159
Source Datasets	10
Total Steps	220,606
Annotation Dimensions	10
指令信息密度提升	10.4×

基准（RoboFine-Bench）

规模：500 个视频，10,816 条原子事实，1,030 个 VQA 问题
评估维度：10 个维度，包括动作序列、主动执行器、目标物体、初始/最终配置、接触与接近、轨迹与方向、身体运动、物体交互、失败与恢复
评估任务：视频描述标注（Captioning）和视觉问答（VQA）

实验与结果

RoboFine-VLM 在 RoboFine-Bench 上达到 71.0% VQA 准确率和 83.6% 描述得分，性能优于 GPT-5.4 和 Gemini 3.1 Pro。
FineVLA-Policy 在仿真和真实场景中，最佳精细:原始（FG:Raw）指令混合比例为 1:1：
- 仿真（AlohaMix-OFT）：Easy 任务 86.8%，Hard 任务 82.5%，相比纯原始指令提升 +15.0/+11.1。
- 真实双臂操作：平均得分 62.7/100（纯原始指令为 49.9），指令违规率从 34% 降至 12%。

搜集汇总

数据集介绍

构建方式

FineVLA-Data的构建始于从10个开源机器人数据集中整合的972,247条轨迹，覆盖85,739个任务。首先，通过格式转换将所有轨迹统一为LeRobot 2.1格式，并过滤掉无效记录。接着，对动作与状态表示进行标准化，转换至绝对坐标与归一化四元数，并利用基于动态时间规整的轨迹一致性检查剔除异常样本。随后，针对每个任务内的轨迹，采用DTW距离度量进行层次聚类，以消除冗余演示，并依据聚类规模与轨迹质量选取代表性样本，将规模压缩至47,159条。最后，利用大型视觉语言模型生成包含十个精细维度的过程级描述，并辅以人工审核验证，确保语言与动作的精准对齐。

特点

FineVLA-Data的核心特点在于其提供了远超传统粗粒度指令的信息密度。相较于原始指令平均仅9.3个单词的贫瘠描述，该数据集的精细指令平均词数跃升至96.8个，增长了10.4倍，覆盖了47个不同的动作动词。这些指令涵盖动作序列、主动执行器、目标物体、初始与最终构型、接触与接近方式、轨迹与朝向、物体交互、失败与恢复及身体运动等十个维度，系统性地捕捉了任务执行过程中的关键控制因素。更重要的是，该数据集通过聚类抽样保留了多样化的操控策略，并经过人工严格校验，确保了指令与视频内容在事实和时间上的高度一致性，为学习精细化的可操控策略提供了坚实基础。

使用方法

该数据集的核心用途是训练可操控的视觉-语言-动作（VLA）策略。使用时，可从同一轨迹池中构建两个并行的数据集：一个携带精细的流程级指令（FG），另一个保留原始的粗粒度任务级指令（Raw）。通过控制FG与Raw指令在训练时的采样比例（如1:2、1:1等），研究者能够精确研究不同精细度语言监督对策略学习的影响。该数据集既可直接用于端到端的策略微调，也可用于训练如RoboFine-VLM这样的专用视觉语言模型，作为可扩展的标注器，以将相同的精细标注范式推广到新的机器人数据上，从而构建更强大的可操控机器人策略。

背景与挑战

背景概述

FineVLA-Data数据集由香港大学XLANG实验室与阿里巴巴Qwen团队于2025年联合构建，旨在解决视觉-语言-动作模型在执行层面指令跟随能力不足的问题。随着机器人基础模型从任务级控制向可引导策略演进，现有数据集普遍存在轨迹仅标注粗粒度目标指令（如“拿起杯子”）而缺失执行细节（如使用哪只手臂、接触区域、运动轨迹和方向）的缺陷。该数据集从BridgeData-V2、BC-Z、RT-1等10个开源机器人数据集中整合972,247条轨迹，经时序聚类筛选与人工校验后最终保留47,159条细粒度轨迹，指令平均词数从9.3增至96.8，覆盖32种机器人形态和10个细粒度执行维度，为可引导VLA策略学习提供了标准化、可复现的训练基础，对推动机器人策略从“做什么”到“怎么做”的精细化控制研究具有里程碑意义。

当前挑战

FineVLA-Data面临的核心挑战源于机器人数据的异构性与细粒度标注的复杂性。在领域问题层面，现有VLA模型虽能完成高层次任务目标，却难以依据人类指令在不同执行约束间灵活切换（如指定手臂、接触区域或运动方向），而传统数据集的粗粒度标签无法提供支持这类可引导控制的过程级监督信号。在数据集构建过程中，挑战尤为突出：首先，10个来源数据集采用截然不同的动作与状态表示（绝对/相对/增量时序、关节/末端执行器空间与多种旋转编码），需统一标准化为规范格式；其次，同一任务内大量演示轨迹高度冗余，必须通过基于动态时间规整的聚类算法筛选代表性样本以降低标注成本；最后，由视觉语言模型生成的十维度细粒度描述仍需人工逐条校验动作顺序、物体标识与接触区域等关键信息的准确性，确保监督信号的时间对齐与事实正确性。

常用场景

经典使用场景

在具身智能与机器人操作领域，FineVLA-Data作为一项开创性的细粒度指令对齐数据集，被广泛用于训练和评估视觉-语言-动作（VLA）模型的可操控策略学习。其核心场景在于将传统粗粒度的任务级语言描述（如“拿起杯子”）扩展为包含执行细节的流程级指令，涵盖主动臂选择、接近方向、接触区域、运动轨迹等十个精细化维度。研究者借助该数据集，能够系统性地探究语言监督粒度对机器人策略学习的影响，通过对比仅含原始目标指令与混合细粒度指令的训练配置，揭示执行层面信息如何在不牺牲任务成功率的前提下，提升策略对用户指定约束的遵循能力。该数据集为构建可解释、可操控的机器人基础模型提供了关键的训练素材与评估基准。

衍生相关工作

FineVLA-Data的发布催生了一系列具有影响力的衍生研究工作。其中最直接的是RoboFine-VLM，一个在包含4.7万条细粒度轨迹的FineVLA-Data上经过监督微调的专用视觉语言模型，其在机器人视频理解基准RoboFine-Bench上取得了71%的VQA准确率和83.6%的生成描述评分，显著优于GPT-5.4、Gemini-3.1-Pro等通用强基模，验证了细粒度对齐数据对机器人专用视觉语言模型训练的独特价值。此外，基于该数据集训练的FineVLA-Policy策略在RoboTwin仿真环境与真实双机械臂平台上均展现出可重复的倒U型性能曲线，证实了细粒度与粗粒度指令混合训练的有效性。这些工作共同构成了一个从数据处理、模型训练、基准评估到策略部署的完整闭环，为后续可操控VLA研究奠定了开放的基线框架，也启发了更多关于执行层语言监督与安全约束结合方向的探索。

数据集最近研究