VRS Dataset

github2025-12-01 更新2025-12-02 收录

下载链接：

https://github.com/showlab/RobotSeg

下载链接

链接失效反馈

官方服务：

资源简介：

VRS是首个视频机器人分割基准数据集，包含2,812个视频（138,707帧），涵盖10种机器人实体（如Franka、Fanuc Mate、UR5等），并提供机器人手臂、夹爪和整个机器人的细粒度掩码标注。

VRS is the first benchmark dataset for video robotic segmentation. It contains 2,812 videos (138,707 frames) in total, covers 10 types of robotic entities such as Franka, Fanuc Mate, UR5 and others, and provides fine-grained mask annotations for robot arms, grippers, and entire robots.

创建时间：

2025-11-16

原始信息汇总

RobotSeg 数据集概述

数据集基本信息

数据集名称： RobotSeg (包含 VRS 数据集)
核心内容：首个用于图像和视频中机器人分割的基础模型及配套数据集。
发布机构： Show Lab, National University of Singapore
相关论文： arXiv:2511.22950

数据集详情 (VRS Dataset)

数据规模：包含 2,812 个视频，共计 138,707 帧。
机器人类型：涵盖 10 种不同的机器人实体，包括 Franka, Fanuc Mate, UR5, Kuka iiwa, Google Robot, MobileALOHA, xArm, WindowX, Sawyer, Hello Stretch。
标注粒度：提供细粒度的掩码标注，包括机械臂、夹爪以及整个机器人。

模型核心特点 (RobotSeg Model)

基础架构：基于 SAM 2 构建。
核心创新：
1. 结构增强记忆关联器 (SEMA)：将机器人结构线索注入记忆匹配，以在视频帧间保持稳定、结构保持的掩码。
2. 机器人提示生成器 (RPG)：生成语义机器人提示，无需手动点击或框选输入即可引导分割。
3. 标签高效训练 (LET)：仅使用第一帧的真实掩码，通过循环、语义和补丁一致性损失来监督模型。
模型能力：
1. 支持图像和视频的自动分割。
2. 支持机械臂-夹爪-机器人的细粒度分割。
3. 提供可提示交互能力，用于灵活的编辑和标注。
性能指标：模型参数量为 41.3M，推理速度超过 10 FPS。

性能表现

领先优势：在 RoboEngine (图像) 和 VRS (视频) 数据集上，性能超越机器人专用基线方法 (如 RoVi-Aug, RoboEngine) 和语言条件方法 (如 CLIPSeg, LISA, EVF-SAM, VideoLISA, SAM 3)。
对比SAM：在多种提示设置下 (自动、1点、3点、框、在线交互) 均超越 SAM 2.1。
鲁棒性：对 10 种不同的机器人实体具有鲁棒性。

应用场景

机器人中心数据增强：利用精确的机器人掩码将机器人合成到新环境中，为鲁棒策略学习和仿真到现实适应生成多样化的视觉条件。
机器人3D重建：提供准确的机器人掩码，可供现代 3D 重建流程 (如 SAM-3D Objects) 使用，以生成用于数字孪生建模的高质量机器人几何体。
其他支持：视觉伺服、安全监控（碰撞预警）、真实到仿真的转移。

关键挑战应对

RobotSeg 针对机器人分割的独特难点设计，包括：

实体多样性
外观模糊性
结构复杂性
快速形状变化

搜集汇总

数据集介绍

构建方式

在机器人视觉领域，构建高质量的数据集对于推动分割技术的发展至关重要。VRS数据集作为首个视频机器人分割基准，其构建过程体现了严谨的学术规范。研究者们系统性地采集了涵盖10种不同机器人本体（如Franka、UR5、MobileALOHA等）的2,812段视频，总计包含138,707帧图像。每一帧均提供了精细的标注，不仅包含整个机器人的掩码，还细致区分了机械臂和末端执行器（夹爪）的独立分割标签，为模型训练与评估奠定了坚实的结构化数据基础。

使用方法

VRS数据集主要服务于机器人分割模型的训练与性能评测。研究者可利用其丰富的视频序列和精细标注，训练能够理解机器人结构并保持时序一致性的分割模型。在评估层面，该数据集为标准测试基准，支持对模型在自动分割、基于点击或框选提示的分割等多种设置下进行定量与定性分析。其提供的多类别掩码可直接应用于机器人视觉伺服、以机器人为中心的数据增强、从真实场景到仿真环境的迁移以及安全监控等下游任务，为机器人视觉研究提供了关键的数据基础设施。

背景与挑战

背景概述

在机器人视觉感知领域，精确分割机器人本体是实现高级任务如视觉伺服、安全监控和仿真迁移的关键前提。尽管通用分割模型如SAM系列已取得显著进展，但其在机器人分割任务上仍面临可靠性不足的挑战。为此，新加坡国立大学Show实验室的研究团队于2025年推出了RobotSeg项目及其核心数据集VRS。该项目旨在构建首个专用于图像与视频中机器人分割的基础模型与基准数据集，以应对机器人形态多样、结构复杂且与背景易混淆的核心研究问题。VRS数据集的建立为机器人分割领域提供了系统性的评估标准，推动了相关技术在机器人增强现实、数据合成与三维重建等应用中的发展。

当前挑战

机器人分割任务面临多重固有挑战。在领域问题层面，机器人形态的多样性体现在不同型号的机械臂、夹爪在尺寸、关节结构和外观上存在显著差异；外观模糊性则源于机器人的金属材质与反光特性，易与杂乱背景融合；结构复杂性要求模型能够区分机械臂的连杆、关节与末端执行器等精细部件；快速形状变化源于机器人高速运动导致的大幅几何与运动变异。在数据集构建过程中，挑战集中于采集涵盖十种不同机器人实体的大量高质量视频数据，并需为每一帧图像标注精细至机械臂、夹爪及整体机器人的像素级掩码，这一过程对标注的一致性与准确性提出了极高要求。

常用场景

经典使用场景

在机器人视觉感知领域，VRS数据集作为首个视频机器人分割基准，其经典应用场景聚焦于评估和训练针对复杂动态环境的机器人分割模型。该数据集涵盖多种机器人本体和精细的部件标注，为研究者在视频序列中实现稳定、精确的机器人掩码预测提供了标准化的测试平台，尤其在机器人快速运动与背景干扰的挑战性场景中展现出关键价值。

解决学术问题

VRS数据集有效应对了机器人分割中因本体多样性、外观模糊性、结构复杂性和快速形变所带来的学术难题。通过提供大规模、多本体、细粒度的标注数据，它促进了分割模型在跨本体泛化、结构一致性保持以及运动鲁棒性方面的研究进展，为建立专用于机器人的基础视觉模型奠定了数据基础，推动了具身智能中视觉感知模块的标准化与性能提升。

实际应用

在实际应用层面，基于VRS数据集训练的模型如RobotSeg，能够为视觉语言动作系统提供精确的机器人掩码，支撑视觉伺服控制；其分割结果可用于机器人中心的数据增强，合成多样化的训练场景以提升策略学习的鲁棒性；此外，精准的掩码输出还助力于机器人三维重建、数字孪生建模以及实时安全监控与碰撞预警，在工业自动化与服务机器人等领域具有广泛的应用前景。

数据集最近研究