OmniViTac

Name: OmniViTac
Creator: 新加坡国立大学; TARS Robotics; 复旦大学; 中国科学院自动化研究所; 北京大学; 中关村研究院; 北京航空航天大学
Published: 2026-03-20 01:52:42
License: 暂无描述

arXiv2026-03-20 更新2026-03-21 收录

下载链接：

https://mrsecant.github.io/OmniVTA

下载链接

链接失效反馈

官方服务：

资源简介：

OmniViTac是由TARS Robotics联合多所高校研发的大规模视觉-触觉-动作对齐数据集，包含21,879条跨86种任务、100余种物体的操作轨迹，涵盖擦拭、剥离、切割等六类物理交互模式。该数据集通过统一跨本体平台采集，保留原始传感器频率并实现多模态时间同步，其高精度触觉信号与RGB-D观测可建模接触动力学。该数据集旨在推动接触密集型操作任务的通用表征学习与预测控制研究，为机器人精细操作提供基准支持。

OmniViTac is a large-scale vision-tactile-action alignment dataset developed by TARS Robotics in collaboration with multiple universities. It contains 21,879 manipulation trajectories across 86 tasks and over 100 object categories, covering six types of physical interaction modes including wiping, peeling, cutting and others. This dataset is collected via a unified cross-embodiment platform, retains the original sensor frequencies and achieves multi-modal temporal synchronization. Its high-precision tactile signals and RGB-D observations enable the modeling of contact dynamics. This dataset aims to advance research on generalizable representation learning and predictive control for contact-dense manipulation tasks, providing benchmark support for robotic fine manipulation.

提供机构：

新加坡国立大学; TARS Robotics; 复旦大学; 中国科学院自动化研究所; 北京大学; 中关村研究院; 北京航空航天大学

创建时间：

2026-03-20

原始信息汇总

OmniVTA 数据集概述

数据集名称

OmniVTA (OmniViTac Dataset)

核心描述

OmniVTA 是一个用于接触丰富的机器人操作的视觉-触觉世界建模数据集。

关键特性

包含操作视频和双指触觉信号。
数据用于展示视觉-触觉世界模型生成的信号与真实情况的高度一致性。

数据任务类别与样本

数据集包含以下六类操作任务的样本：

组装 (Assembly)

插入红色 USB
插入银色 USB
插入白色插头

切割 (Cutting)

切割黄瓜
切割辣椒
切割山药

去皮 (Peeling)

给黄瓜去皮
给萝卜去皮
给山药去皮

擦拭 (Wiping)

擦拭蓝色中型花瓶
擦拭白色大花瓶
擦拭白色小花瓶

调整 (Adjustment)

调整白色长方体并将其插入插座
调整黄色圆柱体并将其插入插座
调整试管并将其插入插座

抓取 (Grasping)

抓取樱桃
抓取蓝莓
抓取葡萄

相关资源链接

论文 (Paper)
代码 (Code)
数据收集代码 (Data Collection Code)
数据集 (🤗 OmniViTac Dataset)
演示 (Demo)

搜集汇总

数据集介绍

构建方式

在接触式机器人操作领域，数据采集的规模与质量是模型泛化能力的关键制约因素。OmniViTac数据集通过构建一个统一的多模态数据采集系统，系统性地解决了这一挑战。该系统的核心在于采用双平台异构采集策略，结合7自由度机械臂与手持式TacUMI设备，在保持末端执行器与触觉传感器模块一致性的前提下，高效收集了超过21,000条轨迹。数据采集过程严格遵循高保真原则，所有视觉、触觉与动作流均以其原生频率异步记录，并通过精密的时间戳同步后处理流程实现毫秒级对齐，确保了多模态数据在时间维度上的严格一致性。

特点

OmniViTac的显著特征在于其前所未有的规模与精心设计的物理基础任务分类体系。数据集囊括了86种具体任务，涉及超过100个物体，并创新性地依据主导触觉特征与接触力学，将行为归纳为擦拭、剥离、切割、抓取、装配与手中调整六种核心交互模式。这种基于物理原理的 taxonomy 使得数据集超越了简单的视觉运动学记录，能够捕捉广泛而结构化的接触动力学谱系。定量分析进一步揭示了数据的内在特性，例如不同模式在有效接触比率、接触面积分布与力强度上呈现清晰的物理可解释性差异，t-SNE可视化也证实了触觉信号在潜在空间中形成了与交互语义严格对齐的可分离簇。

使用方法

OmniViTac数据集为推进接触式操作的算法研究提供了坚实的基础。其主要用途在于支持大规模、可泛化的视触觉表征学习、预测性接触动力学建模以及鲁棒操作策略的训练。研究人员可利用其完全对齐的多模态序列，训练如论文所述OmniVTA框架中的自监督触觉编码器或视触觉世界模型。数据集按交互模式组织的结构便于进行任务特定的微调或跨模式泛化研究。在使用时，建议遵循其提供的预处理流程，包括时间同步对齐与轨迹修剪，并利用其丰富的元数据（如接触区域、力强度）进行深入的机理分析，以验证所学习模型是否真正理解了物理交互的本质，而非仅仅记忆轨迹。

背景与挑战

背景概述

OmniViTac数据集由新加坡国立大学、TARS Robotics、复旦大学等机构的研究团队于2026年提出，旨在应对接触式机器人操作领域的数据瓶颈。该数据集聚焦于视觉-触觉融合的机器人操作任务，核心研究问题在于如何通过大规模、多模态对齐的数据，推动接触动力学建模与闭环触觉控制方法的发展。OmniViTac涵盖了超过21,000条轨迹、86项任务及100余种物体，并依据物理交互模式划分为擦拭、剥离、切割、抓取、装配与手内调整六类，为学习通用化的视觉-触觉表征与预测模型提供了关键基准，显著提升了接触式操作研究的可扩展性与泛化能力。

当前挑战

在解决接触式机器人操作问题的过程中，OmniViTac面临两大核心挑战：其一，领域问题的挑战在于如何从视觉与高频触觉信号中准确建模接触动力学，包括摩擦力变化、力分布与状态转移，以支持精细的闭环控制；其二，构建过程中的挑战涉及多模态数据的高质量对齐，需在跨平台、多传感器环境下实现视觉、触觉与动作流的时间同步，并确保数据覆盖多样化的物理交互模式与物体属性，以克服现有数据集规模有限、任务覆盖狭窄的局限性。

常用场景

经典使用场景

在接触密集型机器人操作领域，OmniViTac数据集为视觉-触觉联合建模提供了关键的数据支撑。该数据集最经典的使用场景在于训练和评估能够预测接触动态的世界模型，例如OmniVTA框架。通过提供大规模、多模态对齐的演示轨迹，研究者能够利用这些数据学习触觉信号的紧凑表示，并构建能够预测未来接触状态的生成模型。此类模型在机器人执行擦拭、装配等需要精细力控的任务时，能够基于历史观测生成对未来触觉状态的预测，从而为动作规划提供前瞻性信息，显著提升在复杂接触交互中的鲁棒性和适应性。

衍生相关工作

以OmniViTac数据集为基础，衍生出了一系列重要的研究工作。最直接的相关工作是与其同论文提出的OmniVTA框架，该框架集成了触觉表征学习、视觉-触觉世界模型、自适应融合策略和反射式触觉控制器，成为利用该数据进行接触预测与闭环控制的典范。此外，该数据集也启发了对触觉信号本质属性的深入分析，如空间局部性和接触驱动动态的量化研究。在方法论上，它促进了基于扩散模型的视觉-触觉策略学习、隐式神经表示在触觉重建中的应用，以及慢-快策略分解在接触密集型操作中的系统整合，为后续研究提供了宝贵的架构参考和评估基准。

数据集最近研究