OpenGVL
收藏arXiv2025-09-22 更新2025-11-21 收录
下载链接:
https://github.com/budzianowski/opengvl
下载链接
链接失效反馈官方服务:
资源简介:
OpenGVL是一个全面的基准测试,用于评估在各种具有挑战性的操作任务中估计任务进度。它涉及机器人和人类的双重体现,旨在通过视觉观察预测任务进度。OpenGVL评估了公开可用的开源基础模型的能力,并展示了开源模型家族在时间进度预测任务上的性能显著低于闭源模型。OpenGVL还可以作为自动化数据管理和过滤的实用工具,以有效地评估大规模机器人数据集的质量。
提供机构:
波兰华沙大学
创建时间:
2025-09-22
搜集汇总
数据集介绍

构建方式
在机器人技术领域,数据稀缺问题长期制约着模型性能的提升。OpenGVL数据集通过整合多样化的机器人操作任务,构建了一个全面的时序进度预测基准。该数据集选取了nyu door、berkeley mvp等四个代表性机器人数据集作为基础验证集,每个数据集采样50个任务片段,并采用零样本和两样本条件设置。通过随机采样15帧图像并打乱时序顺序,确保模型在缺乏显式时序线索的情况下进行公平评估,同时创建了两个隐藏数据集以防止数据污染。
特点
面向大规模机器人数据管理的实际需求,OpenGVL展现出独特的基准特性。该数据集涵盖从简单抓取到精密电子装配的多样化操作场景,既包含机器人执行数据也纳入人类演示视频。其核心价值在于揭示了开源与专有视觉语言模型之间显著的性能差距,开源模型在时序进度预测任务中仅能达到专有模型70%的性能水平。通过价值顺序相关性指标量化评估,该数据集能够有效识别任务定义模糊、标注歧义和异常样本等常见数据质量问题。
使用方法
针对日益增长的开源机器人数据集管理挑战,OpenGVL提供了实用的数据筛选解决方案。研究人员可通过该基准快速评估不同视觉语言模型在时序进度预测任务上的表现,利用价值顺序相关性指标自动检测数据集质量。具体实施时,用户只需输入任务指令和随机打乱的视频帧序列,模型即可输出任务完成度百分比预测。该工具支持在Hugging Face社区平台进行交互式分析,既能宏观评估完整数据集质量,也能微观识别单个异常任务片段,为构建高质量机器人训练数据提供技术支撑。
背景与挑战
背景概述
随着机器人硬件成本降低与数据采集技术普及,机器人领域面临高质量标注数据稀缺的核心瓶颈。OpenGVL基准由华沙大学等机构于2025年联合提出,其核心研究目标是通过视觉语言模型预测时序任务进度,构建自动化数据筛选工具以应对海量机器人数据的管理挑战。该基准通过量化评估模型对任务完成度的感知能力,为构建机器人领域的规模化预训练数据集奠定基础,显著推进了机器人学习范式的演进。
当前挑战
在领域问题层面,时序进度预测需解决机器人操作任务中动态场景理解与多模态对齐的复杂性,现有开源模型在空间推理能力上仅达到闭源模型70%性能。构建过程中面临标注一致性难题,包括任务定义模糊性(如挖掘任务中'倾倒'动作的量化标准)、传感器遮挡导致的视觉信息缺失,以及数据集中存在的异常轨迹样本检测等工程实现挑战。
常用场景
经典使用场景
在机器人学习领域,OpenGVL数据集作为评估视觉语言模型时序任务进展预测能力的基准工具,其经典应用场景聚焦于对机器人操作轨迹的自动质量评估。通过分析随机排序的视觉观测序列,模型需要推断任务完成度的时序变化规律,这种能力对于构建大规模机器人数据集的质量控制体系具有核心价值。
实际应用
在实际应用中,OpenGVL被证明能高效识别社区共享数据集中的三类典型问题:任务定义模糊导致的进度评估失效、标注歧义引起的时序逻辑混乱、以及异常轨迹对模型训练的干扰。例如在挖掘机操作数据集中,该系统成功检测到因任务目标不明确造成的价值函数波动,为数据清洗提供了可量化的筛选标准。
衍生相关工作
基于OpenGVL的基准框架,研究社区衍生出多个重要研究方向。MiMo-VL-7B-RL-2508等模型在时序推理任务上展现出卓越性能,GLM-4.1V-9B-Thinking则探索了显式推理机制对进度预测的增强效果。这些工作共同推动了开源视觉语言模型在机器人数据治理领域的技术演进。
以上内容由遇见数据集搜集并总结生成



