RoboInter-Data

Name: RoboInter-Data
Creator: 中国科学技术大学; 上海人工智能实验室; 北京航空航天大学; 南洋理工大学; 浙江大学; 清华大学; 香港中文大学
Published: 2026-02-11 01:01:54
License: 暂无描述

arXiv2026-02-11 更新2026-02-12 收录

下载链接：

https://arxiv.org/abs/2602.09973v1

下载链接

链接失效反馈

官方服务：

资源简介：

RoboInter-Data是由上海人工智能实验室联合多所高校构建的大规模机器人操作数据集，涵盖571个多样化场景和23万条操作片段。该数据集通过半自动标注工具RoboInter-Tool实现了10余类细粒度中间表示（如子任务、抓取姿态、物体分割框等）的逐帧标注，数据来源整合了Droid和RH20T等开源数据集。其创建过程结合了人类验证与自动化处理，显著提升了标注质量和规模。该数据集旨在解决视觉-语言-动作（VLA）模型在机器人操作任务中因中间监督缺失导致的泛化性不足问题，为机器人规划与执行研究提供了重要基础资源。

RoboInter-Data is a large-scale robotic manipulation dataset developed by the Shanghai AI Laboratory in collaboration with multiple universities, covering 571 diverse scenarios and 230,000 manipulation segments. This dataset achieves frame-by-frame annotation for over 10 categories of fine-grained intermediate representations such as subtasks, grasping poses, object segmentation boxes and more via the semi-automatic annotation tool RoboInter-Tool. It integrates open-source datasets including Droid and RH20T as its data sources. Its construction pipeline combines human validation and automated processing, which substantially improves both annotation quality and dataset scale. This dataset aims to address the insufficient generalization issue of Vision-Language-Action (VLA) models in robotic manipulation tasks caused by the lack of intermediate supervision, providing a crucial foundational resource for robotic planning and execution research.

提供机构：

中国科学技术大学; 上海人工智能实验室; 北京航空航天大学; 南洋理工大学; 浙江大学; 清华大学; 香港中文大学

创建时间：

2026-02-11

原始信息汇总

RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation

数据集基本信息

标题: RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation
arXiv标识符: arXiv:2602.09973v1
提交日期: 2026年2月10日
所属学科: Computer Science > Robotics (cs.RO)
发表信息: 已发表于ICLR 2026
论文页数: 69页，包含40张图
DOI: https://doi.org/10.48550/arXiv.2602.09973

作者列表

Hao Li, Ziqin Wang, Zi-han Ding, Shuai Yang, Yilun Chen, Yang Tian, Xiaolin Hu, Tai Wang, Dahua Lin, Feng Zhao, Si Liu, Jiangmiao Pang

研究背景与动机

大型视觉语言模型（VLMs）的进展激发了人们对用于机器人操作的视觉-语言-动作（VLA）系统的兴趣。
现有操作数据集存在成本高、高度依赖具体机器人形态、覆盖范围和多样性不足的问题，阻碍了VLA模型的泛化。
近期研究尝试通过“先规划后执行”范式来缓解这些限制，但严重依赖额外的中间监督，而现有数据集普遍缺乏此类监督。

数据集内容与构成

RoboInter Manipulation Suite: 一个统一的资源，包含用于操作的中间表示的数据、基准和模型。
RoboInter-Tool: 一个轻量级GUI工具，支持对多种表示进行半自动标注。
RoboInter-Data: 一个大规模数据集，包含超过23万条（230k）记录，覆盖571个多样化场景。该数据集提供了超过10个类别的中间表示的密集逐帧标注，在规模和标注质量上远超先前工作。

基准与模型

RoboInter-VQA: 引入了9个空间类别和20个时间类别的具身视觉问答（VQA）任务，用于系统性地基准测试和增强VLMs的具身推理能力。
RoboInter-VLA: 提供了一个集成的“先规划后执行”框架，支持模块化和端到端的VLA变体，通过中间监督将高层规划与低层执行连接起来。

目标与意义

RoboInter通过精细化和多样化的中间表示，为推进稳健且可泛化的机器人学习奠定了实用基础。

搜集汇总

数据集介绍

构建方式

在机器人操作领域，大规模高质量数据集的构建是推动视觉-语言-动作模型发展的关键。RoboInter-Data的构建过程体现了系统化的数据整合与精细化标注策略。该数据集整合了来自Droid和RH20T等开源数据集的原始遥操作视频，经过严格筛选与预处理，形成了涵盖571个场景、超过23万条操作片段的数据库。通过RoboInter-Tool这一半自动标注平台，实现了对每帧图像的多层次标注，包括任务分解、关键帧标注、操作物体识别与分割、末端执行器定位等。标注过程融合了自动化工具（如SAM2用于物体分割跟踪）与人工校验，确保了超过10类中间表示（如子任务、技能、边界框、抓取位姿、运动轨迹等）的密集逐帧对齐，所有标注均与执行动作、机器人状态及多视角观测时间同步，为端到端动作学习提供了坚实基础。

使用方法

RoboInter-Data为机器人操作研究提供了多层次的实用框架。在模型训练方面，其密集的中间表示标注可直接用于训练视觉语言模型作为规划器，通过RoboInter-VQA任务提升模型的具身理解与生成能力。基于此，RoboInter-VLA框架支持模块化与端到端的视觉-语言-动作模型变体，规划器产生中间表示以指导执行器生成底层动作。研究人员可利用该数据集进行中间表示的消融研究，探索不同表示对泛化性与可控性的影响。此外，数据集的时间对齐视频与多类别标注也支持 embodied 世界模型学习、可控视频生成以及视频动作模型训练等方向。数据已开源，为利用中间表示推动具身智能研究提供了统一基础。

背景与挑战

背景概述

随着大规模视觉语言模型的突破，机器人操作领域对视觉-语言-动作系统的需求日益增长，但现有数据集普遍存在标注成本高昂、场景覆盖有限以及中间表示缺失等问题。为应对这一挑战，由上海人工智能实验室、中国科学技术大学、北京航空航天大学等机构的研究团队于2026年联合推出了RoboInter-Data数据集。该数据集旨在为机器人操作提供细粒度、多样化的中间表示标注，包含超过23万条操作序列，涵盖571个不同场景，并提供了十余类密集的逐帧中间表示标注，如子任务分解、抓取姿态、轨迹跟踪等。RoboInter-Data的建立为推进基于中间表示的规划-执行范式奠定了数据基础，显著提升了视觉语言模型在具身推理与动作生成方面的能力。

当前挑战

RoboInter-Data所应对的核心挑战在于解决机器人操作中视觉-语言-动作模型泛化能力不足的问题。具体而言，该数据集致力于通过丰富的中间表示标注，为模型提供从高层规划到低层执行的细粒度监督，从而缓解现有数据集中间表示缺失导致的泛化瓶颈。在构建过程中，研究团队面临多重挑战：一是大规模高质量标注的获取，需在230k序列上实现十余类中间表示的逐帧对齐，涉及复杂的时空校准与人工验证；二是多源异构数据的整合，需统一来自Droid、RH20T等数据集的异构格式与不同机器人平台的控制信号；三是标注工具的开发，需设计半自动化的标注流程以平衡标注效率与质量，并确保各类中间表示在时间维度上的一致性。

常用场景

经典使用场景

在机器人操作领域，RoboInter-Data数据集最经典的使用场景是作为“规划-执行”范式的中间表示训练与评估平台。该数据集通过提供超过23万条操作片段、涵盖571个多样化场景的密集每帧标注，为视觉-语言-动作模型提供了丰富的结构化监督信号。研究者能够利用其标注的十余类中间表示——包括子任务分解、原始技能、物体边界框、抓取姿态、运动轨迹等——来训练规划器生成可解释的中间步骤，进而指导执行器完成低层动作生成。这种基于中间表示的层次化框架显著提升了模型在复杂长程任务中的泛化能力与可控性。

解决学术问题

RoboInter-Data主要解决了机器人操作研究中因缺乏高质量、大规模中间表示标注数据而导致的泛化瓶颈问题。传统操作数据集通常仅提供原始视频与动作配对，缺乏对任务分解、空间定位、时序推理等中间层次的监督，限制了“规划-执行”范式的发展。该数据集通过半自动标注工具与人工校验相结合的方式，提供了密集对齐的多种中间表示，使得研究者能够系统性地探索中间表示对模型性能的影响。其意义在于为具身智能研究建立了首个大规模、多类别、高质量的真实世界中间表示基准，推动了从端到端黑箱模型向可解释、可组合的层次化架构的演进。

实际应用

在实际应用层面，RoboInter-Data为开发鲁棒的家庭服务机器人、工业装配助手等智能体提供了关键数据支撑。基于该数据集训练的视觉-语言模型能够理解自然语言指令，并生成如物体定位框、抓取区域、运动路径等中间表示，进而驱动机械臂完成抓取、放置、折叠等日常操作。在跨场景、跨物体泛化测试中，利用该数据训练的模型在物体收集、杯子堆叠、毛巾折叠等任务上展现出优异的适应能力。此外，其提供的空间与时空视觉问答数据可直接用于评估和提升现有多模态大模型在具身场景中的推理与规划能力。

数据集最近研究