Visual-Tactile Peg-in-Hole Assembly Dataset

Name: Visual-Tactile Peg-in-Hole Assembly Dataset
Creator: 伦敦国王学院·工程系; 伦敦国王学院·信息学系
Published: 2026-04-22 23:56:58
License: 暂无描述

arXiv2026-04-22 更新2026-04-24 收录

下载链接：

https://sites.google.com/view/pooh2pih

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由伦敦国王学院研究团队创建，聚焦于机器人视觉-触觉协同操作的钉孔装配任务。数据集包含机器人运动学参数（末端执行器位姿）、96×96像素的视觉图像以及基于触觉标记流处理的15维触觉特征向量，通过软演员-评论家算法在统一仿真环境中生成。数据采集创新性地采用逆向任务策略，将拔钉轨迹经时空反转和动作随机化处理后生成装配训练数据。该数据集旨在解决多模态感知下的精细装配难题，为机器人强化学习提供兼具全局视觉引导与局部触觉校正的示范样本，显著提升策略在未知几何结构中的泛化能力。

This dataset was created by a research team at King's College London, focusing on the peg-in-hole assembly task for robotic vision-tactile collaborative manipulation. It includes robotic kinematic parameters (end-effector poses), 96×96 pixel visual images, and 15-dimensional tactile feature vectors processed from tactile marker streams, generated via the Soft Actor-Critic (SAC) algorithm in a unified simulation environment. The data collection innovatively adopts an inverse task strategy, generating assembly training data by spatially-temporally inverting and randomizing peg extraction trajectories. This dataset aims to address the challenges of precise assembly under multi-modal perception, providing demonstration samples that combine global visual guidance and local tactile correction for robotic reinforcement learning, thereby significantly enhancing the generalization ability of policies in unknown geometric structures.

提供机构：

伦敦国王学院·工程系; 伦敦国王学院·信息学系

创建时间：

2026-04-22

搜集汇总

数据集介绍

构建方式

该数据集面向机器人装配中的经典难题——销孔装配任务，提出了一种创新的逆向技能迁移构建范式。研究者将销孔装配与拔销拆卸统一建模为部分可观测马尔可夫决策过程，共享相同的视觉-触觉观测空间与连续动作空间。首先，通过软演员-评论家算法在仿真环境中训练拔销策略，收集包含运动学、视觉图像（96×96像素）及触觉流主成分分析特征（15维）的多模态轨迹。随后，将这些轨迹在时间维度上反向翻转，并对50%的轨迹引入动作随机化（在z向距离小于1厘米时叠加±2厘米的横向扰动），以丰富接触模式。最后，通过触觉模拟器为反向轨迹重新生成触觉观测，形成完整的销孔装配演示数据集，涵盖6种不同几何形状的销孔对（正方体、圆柱体、六棱柱、D形件等）及0.5-2毫米的间隙规格。

特点

该数据集的核心创新在于利用拆卸任务的天然低复杂度特性产出高质量装配先验知识。与直接采集销孔装配演示相比，拔销过程无需精确对准，仅需克服现有摩擦力，使得数据收集效率显著提升且硬件损耗更低。数据集具备三大突出特点：其一，多模态融合特性——同时记录机器人末端笛卡尔位姿、全局视觉上下文与局部触觉形变信息，有效克服了纯视觉方法易受遮挡、纯触觉方法缺乏远距离制导的局限性；其二，接触对抗性——通过动作随机化策略在反转轨迹中人为引入对准偏移和卡阻恢复等典型接触场景，弥合了拆卸与装配之间固有的力觉不对称性；其三，逆向泛化能力——同一拔销策略派生的演示数据可服务于多种几何构型的装配任务，在未见对象上仍达到77.1%的平均成功率，展现出优异的跨形状泛化性能。

使用方法

数据集的典型使用流程包含两阶段训练。首先，利用数据集中500条仿真轨迹与每类已知对象20条真实轨迹构建专家经验回放缓冲区，与标准强化学习缓冲区以混合采样方式联合训练销孔装配策略。采样过程中采用退火机制（专家缓冲区采样比例从0.3渐降至0），使策略逐步从模仿学习过渡到自主探索。其次，引入行为克隆损失作为辅助监督信号，在每次策略更新后执行若干次对数似然最大化更新，引导策略模仿专家行为。该损失权重同样采用退火策略（从0.05衰减至0），避免后期过度依赖模仿。研究者提供了完整的仿真环境（基于MuJoCo与RoboSuite）、触觉模拟器及预训练模型权重，并支持通过调整动作随机化比例（0-100%）、混合采样比例等超参数灵活适配不同难度的装配场景。所有代码、预训练模型及演示视频均已开源。

背景与挑战

背景概述

Visual-Tactile Peg-in-Hole Assembly Dataset由Yongqiang Zhao、Shan Luo等研究人员于2026年提出，主要隶属于伦敦国王学院。该数据集聚焦于机器人操作中的经典难题——轴孔装配，提出一种创新性的视觉-触觉技能学习框架，通过逆向任务（拔销）的轨迹反转与动作随机化生成装配演示数据，有效缓解了强化学习探索成本高、演示数据获取困难等问题。其融合视觉与触觉的多模态感知策略，在多种几何形状上取得了87.5%的已知物体与77.1%的未知物体平均成功率，为机器人精细化装配研究提供了高效的数据支撑与范式参考。

当前挑战

轴孔装配任务面临的核心挑战在于高精度对接所需的密集探索与复杂接触动力学建模。传统强化学习方法面临探索空间庞大、样本效率低下的困境，而监督学习则依赖高质量演示数据且泛化能力不足。在数据构建过程中，轴孔装配与拔销过程在运动学与视觉上虽呈时间对称，但触觉信号存在显著非对称性——插装涉及丰富的接触、卡滞与调整，而拔销则几乎无接触。因此，如何通过动作随机化弥合触觉差异、生成逼真的插装接触模式，并在仿真到真实迁移中克服触觉模拟器与视觉域间残余差距，构成了该数据集构建与应用的重大挑战。

常用场景

经典使用场景

在机器人操作领域，轴孔装配任务被视为一项基础而富有挑战性的操作技能，要求机器人能够精确地将一个刚性轴件插入匹配的孔洞中。Visual-Tactile Peg-in-Hole Assembly Dataset正是为此类精细操作而生，其经典使用场景聚焦于基于视觉与触觉融合的强化学习训练。研究人员借助该数据集，利用逆向拆卸任务产生的轨迹数据，通过时间反转与动作随机化技术，为装配学习提供专家演示，从而有效提升机器人从失败中学习的能力，并降低接触力峰值。

解决学术问题

该数据集的核心学术贡献在于系统性地解决了轴孔装配学习中两大难题：高昂的探索成本与多模态感知的协同利用。通过提出从拆卸任务中学习装配技能的逆向迁移范式，数据集化解了传统强化学习方法在接触丰富环境下样本效率低下的困境。同时，它验证了视觉引导接近与触觉修正对准的互补机制，并提供了部分可观测马尔可夫决策过程的统一建模方案，为后续研究提供了坚实的实验基准与可复现的算法评估框架。

衍生相关工作

围绕该数据集，学术界已衍生了多项具有深远影响的经典工作，包括基于触觉流特征的主成分分析编码方法、面向Sim2Real迁移的视觉域随机化策略，以及结合行为克隆与混合经验回放缓冲区的强化学习训练框架。这些工作不仅推动了触觉模拟器在真实感与计算效率之间的平衡，也启发了将逆向任务学习扩展至更广泛的非刚体操作领域，如线束插接与软管对接，从而丰富了机器人技能学习的理论体系与工程工具集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集