UniVTAC Benchmark

Name: UniVTAC Benchmark
Creator: 上海交通大学·ScaleLab; D-Robotics; ViTai Robotics; 香港大学; 南京大学; 深圳大学; 武汉大学; 复旦大学; 清华大学
Published: 2026-02-11 02:57:00
License: 暂无描述

arXiv2026-02-11 更新2026-02-12 收录

下载链接：

https://univtac.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

UniVTAC Benchmark是由上海交通大学等机构联合开发的视觉-触觉操作基准测试平台，包含8个典型触觉依赖任务，支持自动化数据生成和标准化策略评估。数据集通过高保真仿真合成，涵盖压力模式、标记变形等触觉交互数据，旨在解决触觉数据稀缺和评估标准缺失问题。该平台通过封闭式触觉反馈机制确保数据物理合理性，适用于接触密集型操作任务的算法训练与验证，显著提升策略在仿真和现实场景中的成功率。

提供机构：

上海交通大学·ScaleLab; D-Robotics; ViTai Robotics; 香港大学; 南京大学; 深圳大学; 武汉大学; 复旦大学; 清华大学

创建时间：

2026-02-11

原始信息汇总

UniVTAC 数据集概述

数据集名称

UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking

作者与机构

作者：Baijun Chen, Weijie Wan, Tianxing Chen, Xianda Guo, Congsheng Xu, Yuanyang Qi, Haojie Zhang, Longyan Wu, Tianling Xu, Zixuan Li, Yizhe Wu, Rui Li, Xiaokang Yang, Ping Luo, Wei Sui, Yao Mu
机构：ScaleLab (上海交通大学), D-Robotics, ViTai Robotics, 香港大学, 南京大学, 深圳大学, 武汉大学, 复旦大学, 清华大学

概述

UniVTAC 是一个用于视觉-触觉操作数据的统一仿真平台，旨在解决因触觉数据集稀缺和缺乏统一评估平台而受限的研究进展。该平台通过集成高保真仿真与鲁棒的表征学习框架，促进可泛化触觉策略的开发，并能有效迁移到现实世界。相比纯视觉基线，该方法在仿真基准上实现了 +17.1% 的成功率，在真实世界的仿真到现实迁移中实现了 +25% 的提升。

核心组件

1. UniVTAC 平台

描述：一个统一的仿真环境，支持多种触觉传感器，并提供直观的API，用于生成可扩展的、接触丰富的操作数据。
支持的触觉传感器：
- GelSight Mini (光学)
- ViTai GF225 (基于软凝胶)
- Xense WS (力/力矩)
自动化操作API：
- Grasp：基于深度反馈的自适应速度控制，防止穿透。
- Move：通过 cuRobo 生成无碰撞轨迹。
- Place：使用轨迹优化实现稳定物体放置。
- Probe：安全接触初始化，避免穿透以获取读数。
- Rotate：小尺度旋转以诱导剪切力模式。

2. UniVTAC 编码器

描述：一个预训练的触觉表征模型，通过在合成数据上进行多路径监督，学习物体的形状、接触动力学和位姿。
架构：基于 ResNet-18 骨干网络，使用 ImageNet 权重初始化，并通过多任务目标进行微调。
监督路径：
- 形状感知：专注于恢复物体的内在几何形状，使用重建监督来分离物体形状与传感器变形伪影。
- 接触感知：建模局部交互动力学，训练该路径以预测表面变形和标记流，这些是力和滑动事件的直接代理。
- 位姿感知：通过回归物体相对于传感器的位姿，将触觉信号锚定在全局度量空间中，从而实现精确操作。

3. UniVTAC 基准测试

描述：一个系统性的基准测试套件，包含 8 个不同的操作任务，用于评估触觉策略。
任务分类：
- 位姿推理：要求机器人仅使用触觉反馈推断所持物体的精确方向和位置。
  - Lift Bottle
  - Lift Can
  - Put Bottle in Shelf
- 形状感知：专注于根据探索过程中提取的局部几何特征来区分物体。
  - Grasp Classify
- 接触丰富的交互：视觉遮挡严重的复杂动力学场景，策略必须根据接触力实时调整动作。
  - Insert Hole
  - Insert Tube
  - Insert HDMI
  - Pull Out Key

实验与结果

仿真实验

评估方法：使用 Action Chunking Transformers (ACT) 和 VITaL 策略进行评估。
关键结果：结合 UniVTAC 编码器能持续提升性能。在高精度任务（如 Insert Tube 和 Insert HDMI）中，触觉反馈不可或缺，相比纯视觉基线具有显著优势。
性能对比表： | 方法 | Lift Bottle | Pull-out Key | Lift Can | Put Bottle | Insert Hole | Insert HDMI | Insert Tube | Grasp Classify | 平均 | |---|---|---|---|---|---|---|---|---|---| | ACT (Vision Only) | 42.0% | 28.0% | 20.0% | 28.0% | 19.0% | 15.0% | 45.0% | 50.0% | 30.9% | | VITaL | 72.0% | 47.0% | 8.0% | 32.0% | 25.0% | 6.0% | 34.0% | 100.0% | 40.5% | | ACT + UniVTAC | 71.0% | 46.0% | 29.0% | 31.0% | 24.0% | 28.0% | 56.0% | 99.0% | 48.0% |

真实世界实验

硬件设置：在天机 Marvin 机器人上部署训练好的策略，机器人配备 ViTai GF225 传感器。
测试任务：Insert Tube, Insert USB, Bottle Upright。
关键结果：尽管仿真与真实触觉读数间存在领域差距，但仅使用合成数据训练的 UniVTAC 编码器表现出显著的鲁棒性。
性能对比表： | 任务 | Vision Only | Vision + UniVTAC | 增益 | |---|---|---|---| | Insert Tube | 55.0% | 85.0% | +30.0% | | Insert USB | 15.0% | 25.0% | +10.0% | | Bottle Upright | 60.0% | 95.0% | +35.0% | | 平均 | 43.3% | 68.3% | +25.0% |

相关资源

论文：https://arxiv.org/abs/2602.10093
代码：即将发布

搜集汇总

数据集介绍

构建方式

在机器人触觉感知领域，大规模高质量数据的匮乏长期制约着接触式操作策略的发展。UniVTAC Benchmark的构建依托于高保真仿真平台TacEx与NVIDIA Isaac Sim，通过自动化操作API与闭环触觉感知控制机制，实现了可扩展的触觉交互数据合成。该平台集成了GelSight Mini、ViTai GF225和Xense WS三种主流视觉触觉传感器模型，并设计了包含抓取、移动、旋转等原子操作的自动化操作库。在数据生成过程中，系统通过随机化接触深度与旋转动作，模拟从轻微触碰到深度压痕的连续接触状态，同时记录包含标记图案的原始触觉图像、纯净接触图像、深度图以及物体位姿等多模态真值数据，最终生成了超过20万样本的大规模标注数据集。

特点

UniVTAC Benchmark的核心特征体现在其系统性与物理真实性上。该基准测试包含八个具有代表性的视觉触觉操作任务，涵盖位姿推理、形状感知和接触式交互三大感知维度，全面评估触觉驱动策略在不同接触场景下的性能。其任务设计引入了随机化失败与基于接触反馈的纠正行为，模拟了人类操作中粗对齐后迭代修正的典型模式，使合成轨迹呈现丰富的接触模式。基准测试采用基于物理的触觉特异性成功标准，如最大穿透深度阈值和相对滑移检测，避免了利用仿真漏洞的退化解决方案，确保评估结果反映物理意义上合理的操作行为。

使用方法

UniVTAC Benchmark为视觉触觉操作策略的评估提供了标准化流程。研究人员可将待评估的策略模型集成到该仿真平台中，在八个预设任务上进行自动化测试。平台支持从原始触觉图像到动作指令的端到端策略学习，例如可将UniVTAC Encoder等预训练的触觉表征模型作为感知模块，与ACT等基于Transformer的策略架构结合。评估时，每个任务使用50条自动收集的专家轨迹进行策略训练，并在100次测试回合中计算任务成功率。该基准测试实现了数据生成、模型训练与策略评估的统一，支持对不同方法进行公平比较与系统性分析，为触觉感知研究提供了可复现的实验基础。

背景与挑战

背景概述

在机器人灵巧操作领域，视觉-触觉感知对于接触丰富的任务至关重要，然而真实世界触觉数据的获取成本高昂且缺乏统一评估平台。为此，上海交通大学ScaleLab等机构的研究团队于2026年提出了UniVTAC Benchmark，这是一个基于仿真的视觉-触觉操作基准测试集。该数据集构建于高保真触觉仿真平台之上，旨在系统评估触觉驱动策略在八种代表性操作任务中的性能，涵盖姿态推理、形状感知与接触交互等多个维度，为触觉表征学习与策略优化提供了可复现的实验环境。

当前挑战

UniVTAC Benchmark致力于解决视觉-触觉操作领域的两大核心挑战：一是触觉数据稀缺导致的表征模型训练不足，真实传感器硬件成本高、标准化程度低，限制了大规模数据采集；二是缺乏统一评估标准，难以系统比较不同触觉策略的效能。在构建过程中，研究团队需克服仿真数据与真实物理的域差异，设计能够反映真实接触动力学的任务场景，并确保合成轨迹包含丰富的接触模式与校正行为，避免仅生成无接触信息的完美轨迹。

常用场景

经典使用场景

在机器人灵巧操作领域，视觉感知在接触密集任务中常因遮挡和近距离精度限制而表现不足。UniVTAC Benchmark通过整合八项代表性触觉操作任务，为评估触觉驱动策略提供了经典测试平台。该基准涵盖了从物体姿态推理到精细插入操作等多种场景，使研究人员能够在统一环境中系统比较不同策略在触觉依赖任务上的性能表现，尤其擅长揭示策略如何利用视觉-触觉融合信息应对接触不确定性。

实际应用

在实际机器人部署中，UniVTAC Benchmark衍生的触觉表征能够显著提升精细操作任务的鲁棒性。例如在USB插入、试管对准等需要毫米级对齐的工业装配场景中，集成UniVTAC编码器的策略可通过触觉反馈实时检测微小组装误差并执行纠正动作。医疗机器人领域的器械抓取与操作同样受益于其接触感知能力，能够在视觉受限环境下维持稳定的抓取力与姿态控制。

衍生相关工作

该基准的发布促进了视觉-触觉交叉领域的方法创新，衍生出多类经典研究工作。基于其数据合成框架，研究者开发了更高效的触觉仿真器与表征学习架构；其任务设计范式被后续基准如ManiSkill-ViTac等借鉴扩展。在策略学习方面，ACT、VITaL等模型在该基准上的对比实验揭示了多模态融合机制的设计规律，推动了触觉自适应控制策略的理论发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集