RoboInter-Data, RoboInter-VQA

github2026-02-12 更新2026-02-13 收录

下载链接：

https://github.com/InternRobotics/RoboInter

下载链接

链接失效反馈

官方服务：

资源简介：

RoboInter-Data是一个大规模数据集，包含超过23万条记录，覆盖571个不同场景和6种机器人臂类型，提供超过10个类别的密集每帧标注。RoboInter-VQA包含约230万个问答样本，涵盖9个空间和20个时间类别的具身视觉问答。

RoboInter-Data is a large-scale dataset comprising over 230,000 records, covering 571 distinct scenarios and 6 types of robotic arms, with dense per-frame annotations across more than 10 categories. RoboInter-VQA contains approximately 2.3 million question-answering samples, covering embodied visual question answering tasks across 9 spatial and 20 temporal categories.

创建时间：

2026-01-30

原始信息汇总

RoboInter 数据集概述

数据集基本信息

数据集名称：RoboInter
核心定位：一个面向机器人操作的整体化中间表示套件，包含数据、基准测试和模型。
发布状态：论文、数据和代码已发布。
学术认可：已被ICLR 2026接收。

数据集构成

1. RoboInter-Data（核心数据集）

规模：超过23万条操作片段。
场景多样性：涵盖571个不同的场景。
机器人类型：包含6种不同类型的机械臂。
标注密度：提供逐帧的密集标注。
标注类别：超过10种中间表示类型。

2. RoboInter-VQA（视觉问答基准）

样本总量：约230万个问答样本。
问题类别：
- 空间理解（9类）：如物体定位选择、抓取姿态选择、场景-指令匹配、接触判断。
- 空间生成：如物体边界框预测、抓取姿态预测、放置建议、接触点、夹爪框。
- 时间理解（20类）：如运动方向、轨迹-描述匹配、子任务/技能判别、成功判断。
- 时间生成：如轨迹生成、多步规划、下一步预测。

3. RoboInter-VLM（视觉语言模型）

模型基础：基于Qwen2.5-VL和LLaVA-OneVision微调。
核心功能：具备强大的具身推理和 grounding 能力，用于生成作为高层规划的中间表示。
可用检查点：
- RoboInter-VLM（旗舰模型，基于Qwen2.5-VL-7B-Instruct）
- RoboInter-VLM_qwenvl25_3b（轻量级模型，基于Qwen2.5-VL-3B-Instruct）
- RoboInter-VLM_llavaov_7B（基于LLaVA-OneVision-Qwen2-7B）

4. RoboInter-VLA（视觉语言-动作框架）

核心范式：“先规划后执行”。
支持变体：
- RoboInter-IC-E2E：隐式条件化的端到端模型。
- RoboInter-EC-E2E：显式条件化的端到端模型。
- RoboInter-Modular：解耦的规划器-执行器模块化模型。
中间表示桥接：通过灵活思维链（F-CoT）结合子任务、技能、物体框、可供性框、运动轨迹等。

5. RoboInter-Tool（标注工具）

功能：一个轻量级的GUI工具，支持人机回路的半自动多样化中间表示标注。
技术支持：由SAM2提供分割与跟踪能力。

数据标注详情

RoboInter-Data提供了超过10种密集的逐帧对齐标注类型，包括：

时间片段
语言指令
子任务描述
原始技能标签（抓取、放置、推、扭转等）
分割掩码（基于SAM2的物体分割与跟踪）
物体边界框
放置建议位置
未来10帧的夹爪轨迹
末端执行器边界框
机器人-物体接触的帧索引
接触时的6D末端执行器姿态
接触帧的夹爪框
接触点像素坐标

性能表现

RoboInter-VLM在7B规模上，相较于之前的具身VLM，在RoboRefIt上实现了最高**76.8%的性能提升，在RoboVQA上实现了42.8%**的提升。

获取与使用

数据集下载：可通过HuggingFace获取（https://huggingface.co/datasets/InternRobotics/RoboInter-Data）。
代码仓库：https://github.com/InternRobotics/RoboInter
交互演示：提供基于Gradio的Web应用进行标注可视化。
数据加载：提供了便携的PyTorch数据加载器，支持动作分块、基于质量的过滤和帧范围过滤。

潜在应用方向

针对特定中间表示的专家生成模型预训练。
人机交互与共享自主系统开发。
具身世界模型学习。
视频动作模型学习。

许可证

本项目基于MIT许可证发布。

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于推动具身智能的发展至关重要。RoboInter-Data的构建依托于一套名为RoboInter-Tool的半自动标注系统，该系统集成了SAM2分割与跟踪技术，并采用人机协同的验证机制。数据采集覆盖了571个多样化场景和6种不同类型的机械臂，通过逐帧密集标注的方式，生成了超过23万条操作序列。整个流程确保了十余类中间表示，如子任务、原始技能、分割掩码、边界框、放置建议、抓取姿态、运动轨迹和接触点等，均与动作在时间维度上精确对齐，从而形成了大规模、高精度的结构化数据集。

特点

作为目前规模最大的机器人操作中间表示数据集，RoboInter-Data以其前所未有的丰富性和系统性而著称。该数据集不仅包含了超过23万条操作片段，更提供了十余种密集的逐帧标注类型，涵盖了从高层次的任务分解到低层次的几何与运动信息。其标注的多样性显著超越了以往同类工作，为模型理解复杂的操作语义提供了多层次的监督信号。此外，与之配套的RoboInter-VQA基准测试包含了约230万个视觉问答样本，系统性地从空间与时间两个维度设计了理解与生成任务，为全面评估和提升视觉语言模型的具身推理能力奠定了坚实基础。

使用方法

研究者可通过Hugging Face平台便捷地获取RoboInter-Data与RoboInter-VQA数据集。数据集附带了基于PyTorch的高效数据加载器，支持动作分块、质量过滤和帧范围筛选等功能，便于快速集成到训练流程中。对于视觉语言模型的训练与评估，项目提供了基于Qwen2.5-VL和LLaVA-OneVision的完整微调框架。用户可以根据研究目标，灵活选择端到端或模块化的“规划-执行”框架进行模型开发。数据集丰富的标注信息也支持其在专家生成模型、人机交互、具身世界模型学习以及视频动作模型学习等多个前沿方向上的拓展应用。

背景与挑战

背景概述

在机器人操作领域，如何将高层指令转化为精确的低层控制一直是一个核心挑战。传统方法往往依赖于端到端的策略学习，缺乏可解释的中间规划层，限制了系统的泛化能力和人机交互的透明度。为应对这一挑战，由中国科学技术大学、北京航空航天大学及上海人工智能实验室的研究人员于2025年联合推出了RoboInter数据集。该数据集构建了一个全面的中间表示套件，旨在弥合语言指令与机器人动作执行之间的语义鸿沟。通过提供超过23万条操作片段、涵盖571个多样化场景及6种机械臂类型，并附带十余类密集的逐帧标注，RoboInter为开发具有可解释规划能力的机器人系统奠定了数据基础，显著推动了具身智能与操作学习领域的发展。

当前挑战

RoboInter数据集致力于解决机器人操作中高层规划与低层执行脱节的根本问题，其核心挑战在于如何系统化地定义、标注并利用多样化的中间表示来引导操作任务。具体而言，在领域层面，挑战体现为如何设计一个统一的表示框架，以同时涵盖空间理解（如物体定位、抓取姿态）与时间推理（如动作轨迹、子任务序列），并确保这些表示能与原始视频及控制信号精确对齐。在构建过程中，挑战则集中于大规模数据标注的可行性与质量保障。尽管引入了基于SAM2的半自动标注工具与人机协同验证流程，但对复杂操作视频进行逐帧的、多类别（如分割掩码、边界框、轨迹点）的精细化标注，仍需克服标注一致性维护、计算资源消耗以及时序信息准确跟踪等诸多工程难题。

常用场景

经典使用场景

在机器人操作领域，RoboInter-Data与RoboInter-VQA数据集为视觉语言模型（VLM）与视觉语言动作模型（VLA）的训练与评估提供了核心支撑。其经典使用场景集中于通过密集的中间表示注释，如子任务划分、原始技能标签、物体边界框、抓取姿态与运动轨迹等，来系统性地增强模型对复杂操作任务的理解与规划能力。研究者可利用该数据集构建端到端的“规划-执行”框架，其中VLM作为高层规划器生成中间表示，进而指导低层控制策略的执行，从而在多样化场景中实现精准且鲁棒的机器人操作。

衍生相关工作

围绕RoboInter数据集，已衍生出一系列经典研究工作，包括基于Qwen2.5-VL与LLaVA-OneVision架构微调的RoboInter-VLM系列模型，它们在RoboRefIt与RoboVQA等基准上取得了显著性能提升。同时，研究社区发展了三种主要的VLA范式：隐式条件端到端（IC-E2E）、显式条件端到端（EC-E2E）以及模块化的规划器-执行器分离架构。这些工作通过灵活的思维链（F-CoT）机制，将中间表示与动作生成紧密耦合，推动了机器人操作中规划与执行一体化模型的演进。

数据集最近研究