Simulated Robot Insertion Data

Name: Simulated Robot Insertion Data
Creator: 中国科学院自动化研究所多模态人工智能系统重点实验室
Published: 2025-05-15 01:29:35
License: 暂无描述

arXiv2025-05-15 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.09577v1

下载链接

链接失效反馈

官方服务：

资源简介：

Simulated Robot Insertion Data数据集是在模拟环境中构建的一个低成本、多模态数据集，包含视觉-触觉-动作-指令对，专为指尖插入任务设计。数据集包含28,000个组装样本，每个样本包含左右触觉图像序列、一个视觉图像和一个动作标签。该数据集通过域随机化技术生成，以增强零样本Sim2Real迁移性能。

The Simulated Robot Insertion Data dataset is a low-cost, multimodal dataset constructed in simulated environments. It includes visual-tactile-action-instruction pairs and is specifically designed for the fingertip insertion task. The dataset consists of 28,000 assembly samples, with each sample containing left and right tactile image sequences, one visual image, and one action label. It is generated using domain randomization techniques to enhance zero-shot Sim2Real transfer performance.

提供机构：

中国科学院自动化研究所多模态人工智能系统重点实验室

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

Simulated Robot Insertion Data 数据集构建于 NVIDIA Isaac Gym 仿真环境中，通过自建的视觉-触觉模拟器采集数据。该模拟器集成了腕部摄像头和夹爪指尖的视觉触觉传感器，以捕捉装配过程中的多模态观测数据。实验设计了五类不同几何形状的孔轴装配任务，装配间隙范围为 0.6-2.0mm，共包含 28,000 个装配样本。每个样本包含左右触觉图像序列、视觉图像和动作标签，并采用领域随机化技术增强跨域泛化能力。数据以指令微调格式组织，通过特定标记符区分视觉、触觉模态和文本指令。

特点

该数据集的核心价值在于其多模态融合特性与系统性设计。作为首个集成视觉-触觉-语言-动作四维信息的孔轴装配数据集，其触觉数据采用 2×2 网格序列呈现，精确记录了接触过程中的力学演变。通过参数化领域随机化技术，数据集覆盖了材料属性、光照条件、传感器噪声等 12 类变量的连续分布，显著提升了模拟到现实(Sim2Real)的迁移性能。特别设计的指令模板支持端到端策略学习，其中语言指令明确标注了任务目标、轴件类型和动作规范，为多模态大模型训练提供了结构化监督信号。

使用方法

数据集支持三类典型应用范式：其一，作为多模态表征学习的基准测试平台，研究者可通过对比视觉/触觉单模态与跨模态融合的性能差异，验证新型融合架构的有效性；其二，用于训练视觉-触觉-语言联合嵌入模型，输入包含触觉序列、视觉图像和自然语言指令，输出为三维连续动作空间[Δx, Δy, Δrz]的预测；其三，支持基于偏好学习的策略优化，通过对比预测动作与真实动作的L1距离构建偏好对，采用DPO算法实现回归式监督。使用时需注意仿真与实物的传感器标定差异，建议在真实部署前进行域适应微调。

背景与挑战

背景概述

Simulated Robot Insertion Data是由中国科学院自动化研究所多模态人工智能系统国家重点实验室的研究团队于2025年提出的一个多模态机器人操作数据集。该数据集专注于接触密集型操作任务，特别是针对peg-in-hole（孔轴装配）这一经典机器人操作问题。数据集通过NVIDIA Isaac Gym仿真环境构建，集成了手腕摄像头和触觉传感器，采集了视觉-触觉-动作-语言指令的多模态数据，包含28,000个装配样本。该数据集的创新之处在于首次将视觉、触觉和语言模态统一整合，为基于大语言模型的机器人操作策略学习提供了重要基础。

当前挑战

该数据集面临的主要挑战包括：1) 在领域问题层面，接触密集型操作需要精确融合视觉全局感知和触觉局部反馈，传统方法难以处理多模态信号的时空对齐问题；2) 在构建过程中，仿真到现实的迁移存在显著差距，需通过领域随机化技术增强数据多样性；3) 连续动作空间与离散语言表征之间的语义鸿沟，要求开发新的偏好学习机制来优化策略生成。此外，触觉模态的特殊性使得传感器信号表征和跨模态对齐成为技术难点。

常用场景

经典使用场景

Simulated Robot Insertion Data数据集在机器人操作领域中被广泛用于研究多模态感知与动作生成的融合。该数据集通过模拟环境中的视觉-触觉-语言-动作配对数据，为机器人插入操作任务提供了丰富的训练样本。其经典使用场景包括但不限于多形状钉孔装配任务，其中机器人需要基于视觉和触觉反馈调整动作策略以完成精确插入。数据集通过域随机化技术增强了模拟到真实（Sim2Real）的迁移能力，使得在虚拟环境中训练的模型能够直接应用于真实世界的复杂操作场景。

实际应用

在工业自动化领域，该数据集支撑的技术可应用于精密装配、电子元件插接等需要亚毫米级精度的场景。例如在微电子制造中，基于数据集的模型能通过触觉反馈补偿视觉系统对微小接插件的定位误差。医疗机器人领域则可借助其多模态融合能力，实现手术器械与组织的安全交互。数据集还通过低成本仿真降低了真实机器人训练中的硬件损耗，使得中小型企业也能开发高性能操作算法。实际测试表明，仅用仿真数据训练的模型在0.6mm间隙的真实钉孔装配中达到95%的成功率。

衍生相关工作

该数据集催生了多模态机器人操作的一系列创新研究。VTLA框架首次实现了视觉-触觉-语言三模态的端到端策略生成，其提出的视觉引导时序增强令牌（VGTE）机制被后续工作如TLA-V2和Bi-VLA等模型借鉴改进。基于数据集开发的偏好学习方法启发了《TacDiffusion》等研究将扩散策略与触觉反馈结合。在基础模型领域，数据集支撑的跨模态对齐技术为《Multiply》等具身大语言模型提供了触觉嵌入方案，推动了机器人操作从专用模型向通用化架构的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集