RoboMIND 2.0
收藏arXiv2025-12-31 更新2026-01-05 收录
下载链接:
https://modelscope.cn/organization/X-Humanoid?tab=dataset
下载链接
链接失效反馈官方服务:
资源简介:
RoboMIND 2.0是由北京人形机器人创新中心与北京大学联合构建的大规模多模态双臂移动操作数据集,包含31万条来自6种异构机器人平台的真实世界轨迹,覆盖759项任务和129种基础技能,总时长超1000小时。数据集包含12K触觉增强序列和20K移动操作轨迹,采用统一遥操作流程采集并配备细粒度自然语言标注,同时提供20K仿真轨迹和高保真数字孪生资产。其创新性体现在首次整合双臂协同、移动操作、灵巧手控制与触觉感知等多维度特性,支持跨形态策略迁移和具身智能泛化研究,为长时序复杂任务的语言-视觉-动作模型训练提供标准化基准。
RoboMIND 2.0 is a large-scale multimodal dual-arm mobile manipulation dataset jointly constructed by the Beijing Humanoid Robot Innovation Center and Peking University. It contains 310,000 real-world trajectories from 6 heterogeneous robotic platforms, covering 759 tasks and 129 basic skills, with a total duration of over 1,000 hours. The dataset includes 12K tactile-augmented sequences and 20K mobile manipulation trajectories, collected via a unified teleoperation process and annotated with fine-grained natural language annotations. It also provides 20K simulated trajectories and high-fidelity digital twin assets. Its core innovation lies in the first integration of multi-dimensional features including dual-arm collaboration, mobile manipulation, dexterous hand control and tactile perception, supporting cross-morphology policy transfer and embodied intelligence generalization research, and providing a standardized benchmark for training language-vision-action models on long-sequence complex tasks.
提供机构:
北京人形机器人创新中心; 北京大学·计算机学院
创建时间:
2025-12-31
搜集汇总
数据集介绍

构建方式
在具身智能领域,数据驱动的模仿学习正面临大规模、多样化真实世界演示数据稀缺的挑战。RoboMIND 2.0的构建旨在弥合这一鸿沟,其通过一套统一的遥操作与质量保障流程进行数据采集。该数据集汇集了来自六种异构机器人平台(包括Franka、UR5e、AgileX、ARX、Tien Kung和Tian Yi)的超过31万条双臂操作轨迹,总计逾1000小时。采集过程采用了多样化的遥操作接口,如HACTS主从系统、VR头显以及物理引导,以适应不同机器人的形态与移动特性。所有轨迹均经过严格的多阶段质量检查,依据十二项标准(如非预期接触、运动不平滑、数据异常等)进行筛选与标注,确保了数据的一致性与高保真度。此外,团队还开源了高保真数字孪生资产,并发布了与真实任务结构对齐的2万条仿真轨迹,为可扩展的训练与评估提供了坚实基础。
特点
RoboMIND 2.0的突出特点在于其前所未有的多维度多样性,超越了现有基准数据集通常仅关注单一维度(如物体或任务)的局限。该数据集在机器人形态、环境、任务语义及多模态感知上实现了同步覆盖,囊括了759个任务、129项技能以及1139个独特物体。其核心特色包括首次在开源数据集中联合支持双臂协调、移动操作、灵巧手操作以及高保真触觉感知。数据集提供了丰富的多模态信号,不仅包含多视角RGB-D视觉观测与机器人本体感知状态,还集成了来自Tashan触觉传感器的法向力、切向力等触觉反馈,为接触丰富的精细操作提供了关键物理交互信息。这种系统性的多样性为训练能够跨形态、跨任务泛化的通用操作策略奠定了原理性基础。
使用方法
RoboMIND 2.0作为一个综合性基准,支持从单任务模仿学习到多任务视觉-语言-动作大模型等多种机器人学习范式的评估与训练。对于单任务模仿学习,研究者可利用数据集中的特定任务轨迹,训练如ACT、Dense Policy、DP3等模型,并在对应的真实机器人平台上进行部署与性能评估。对于视觉-语言-动作模型,数据集提供的细粒度自然语言标注使得模型能够进行语言条件策略学习;研究者可对如π0、XR-1等预训练VLA模型在RoboMIND 2.0上进行微调,以提升其在双臂及移动操作任务上的泛化能力。此外,数据集配套的数字孪生仿真资产与仿真轨迹支持高效的仿真到现实迁移研究,用户可通过混合真实与仿真数据进行训练,以低成本增强策略的鲁棒性。为充分挖掘数据集潜力,原论文提出了MIND-2双系统框架,其慢系统负责高层语义规划,快系统执行低层动作,为利用该数据集解决长视野、跨平台协作任务提供了范例。
背景与挑战
背景概述
RoboMIND 2.0数据集由北京人形机器人创新中心与北京大学计算机学院联合团队于2025年发布,旨在应对具身智能领域对大规模、多模态、跨平台机器人操作数据的迫切需求。该数据集的核心研究问题聚焦于如何通过高质量的真实世界演示数据,推动机器人模型在长时程、双手机动操作任务中的泛化能力。它汇集了超过31万条双臂操作轨迹,涵盖六种异构机器人本体、759项复杂任务,并首次整合了触觉感知与移动操作数据,为构建通用型机器人操作策略提供了前所未有的数据基础。该数据集的发布显著提升了多模态感知与跨本体策略迁移的研究基准,对推动机器人学习从单一任务模仿向开放世界通用操作演进产生了深远影响。
当前挑战
RoboMIND 2.0致力于解决机器人操作领域的两大核心挑战:一是长时程双手机动操作任务的泛化难题,现有模型在非结构化环境中执行需双手协调、空间延展的复杂任务时性能受限;二是数据稀缺性与多样性不足,以往数据集多在单一维度(如任务、本体或感知模态)扩展,缺乏对机器人形态、环境语义、交互模式及多模态传感的同步覆盖。在构建过程中,研究团队面临了多本体数据采集的标准化挑战,需为六种异构机器人平台设计统一的遥操作与质量保障流程;同时,整合高分辨率触觉传感与移动底盘控制引入了数据同步与模态对齐的复杂性;此外,为确保数据真实性与一致性,需实施严格的多阶段人工质检机制,以剔除因操作者疲劳或设备异常导致的轨迹噪声,这大幅增加了数据工程的成本与难度。
常用场景
经典使用场景
在具身智能与机器人操作领域,RoboMIND 2.0数据集为双手机器人协同操作与移动操作研究提供了核心基准。该数据集通过整合六种异构机器人平台、超过31万条双臂轨迹以及丰富的触觉与视觉模态,为模型训练与评估构建了高度多样化的环境。其经典使用场景集中于长时域、多步骤的双臂协同任务,例如在家庭厨房中完成餐具整理、在工业场景中进行零件装配,或在超市环境中实现物品抓取与搬运。这些场景不仅模拟了真实世界的复杂交互,还通过精细的语言标注与多视角感知数据,为视觉-语言-动作模型的端到端学习提供了结构化监督。
实际应用
在实际应用层面,RoboMIND 2.0数据集为服务机器人、工业自动化及物流分拣等场景提供了关键的技术支撑。基于该数据集训练的模型能够执行家庭环境中的物品整理、厨房辅助操作,以及工业场景下的零件装配与物料搬运等任务。例如,在智能仓储系统中,机器人可依据自然语言指令完成货物的抓取、移动与放置;在柔性制造线上,双手机器人能够协同进行精密装配。数据集包含的触觉信息进一步增强了机器人在接触式操作中的精细控制能力,如易碎物品抓取、工具使用等,从而提升了在实际部署中的安全性与可靠性。
衍生相关工作
围绕RoboMIND 2.0数据集,研究者们衍生出一系列重要的算法与系统工作。最具代表性的是MIND-2双系统框架,其通过高层语义规划器与低层动作执行器的分层设计,实现了长时域移动操作任务的鲁棒完成。此外,该数据集支撑了多种视觉-语言-动作模型的评估与改进,如XR-1、π0.5等模型在跨平台泛化与物体级泛化能力上的验证。在模仿学习方面,基于三维点云的DP3、Dense Policy等方法在双臂协同任务中展现出优于二维方法的性能。同时,数据集推动了对触觉模态融合、仿真与真实数据混合训练以及离线强化学习等方向的研究,为具身智能的算法创新提供了丰富的实验平台。
以上内容由遇见数据集搜集并总结生成



