DexViTac

Name: DexViTac
Creator: 华中科技大学·智能制造装备与技术国家重点实验室; 武汉华威科智能技术有限公司
Published: 2026-03-18 23:39:58
License: 暂无描述

arXiv2026-03-18 更新2026-03-20 收录

下载链接：

https://xitong-c.github.io/DexViTac/

下载链接

链接失效反馈

官方服务：

资源简介：

DexViTac是由华中科技大学与华威科智能联合开发的接触式灵巧操作多模态数据集，包含超过2400条同步采集的第一人称视觉、高密度触觉信号和手部运动学数据。该数据集通过便携式硬件系统在10余种非结构化环境中采集，覆盖40多项任务，触觉传感器采样率达1000Hz，视觉模块具备177°广角视野。数据集采用触觉主导的时空对齐算法处理，有效解决跨模态语义歧义问题，旨在为机器人灵巧操作策略提供高保真的人类示范数据，实验验证其在接触密集型任务中可使策略成功率提升至85%以上。

DexViTac is a multimodal dataset for contact-based dexterous manipulation jointly developed by Huazhong University of Science and Technology and Wavetak Intelligence. It contains over 2,400 synchronously collected first-person visual data, high-density tactile signals and hand kinematic data. Collected via a portable hardware system across more than 10 unstructured environments, the dataset covers over 40 distinct tasks, with the tactile sensor sampling at 1000 Hz and the vision module boasting a 177° wide-angle field of view. The dataset is processed using a tactile-dominant spatiotemporal alignment algorithm, which effectively resolves cross-modal semantic ambiguities. It aims to provide high-fidelity human demonstration data for robotic dexterous manipulation policies. Experimental validation has shown that it can boost the success rate of such policies to over 85% in contact-intensive tasks.

提供机构：

华中科技大学·智能制造装备与技术国家重点实验室; 武汉华威科智能技术有限公司

创建时间：

2026-03-18

原始信息汇总

DexViTac 数据集概述

数据集简介

DexViTac 是一个用于接触丰富的灵巧操作的多模态数据集。它通过一个便携、以人为中心的数据收集系统，采集了第一人称视觉、高密度触觉感知、末端执行器位姿和手部运动学数据。

数据集规模与内容

数据总量：包含超过 2,400 条视觉-触觉-运动学演示。
任务覆盖：涵盖 40 多个任务。
环境多样性：在 10 多个真实世界非结构化环境中收集。

数据收集系统设计

人类演示接口：采用解耦设计，包括鱼眼摄像头、动作捕捉手套、高分辨率触觉传感器和 T265 追踪摄像头。
机器人执行平台：采用同构感知架构，其触觉传感器与人类演示接口上的传感器严格保持一致。
工作流程：采用高频缓冲和以触觉为锚点的同步策略（涉及下采样和最近邻匹配），以防止帧丢失并确保不同模态间紧密的时空对齐。

学习策略

采用两阶段学习策略：

第一阶段：一个自监督框架利用运动学基础编码器，将高密度触觉特征与视觉锚点对齐，以学习空间锚定表示。
第二阶段：将预训练的编码器集成到基于 Transformer 的动作分块策略中，将同步的多模态观测映射到多步动作序列，用于接触丰富的灵巧操作。

部署与评估

在四个代表性任务上进行了部署实验以评估真实世界性能：

移液操作：测试系统的高灵敏度力控制性能。
白板擦除：评估动态交互过程中的力顺应性和稳定性。
记号笔插入：涉及稳定抓取和手内操作能力。
水果收集：验证对不同物理特性的适应性。

相关资源

论文：Xitong Chen, Yifeng Pan, Min Li, Xiaotian Ding. (2026). DexViTac: Collecting Human Visuo-Tactile-Kinematic Demonstrations for Contact-Rich Dexterous Manipulation. arXiv:2603.17851.
论文链接：https://arxiv.org/abs/2603.17851

搜集汇总

数据集介绍

构建方式

在接触密集型灵巧操作领域，高质量多模态数据的获取是机器人学习的关键瓶颈。DexViTac数据集通过一套便携式、以人为中心的数据采集系统构建而成，该系统集成了鱼眼相机、动作捕捉手套、高分辨率触觉传感器和T265追踪相机，能够在非结构化真实环境中同步采集第一人称视觉、高密度触觉感知和手部运动学数据。数据采集流程基于ROS2框架，各感知模块作为独立节点运行，并采用以触觉时间戳为锚点的同步策略，通过下采样与最近邻匹配确保多模态数据的时空严格对齐，最终形成了超过2400条视觉-触觉-运动学演示的大规模数据集。

特点

该数据集的核心特点在于其多模态、高保真与场景泛化能力。它首次在真实世界环境中实现了视觉、触觉与运动学数据的紧密耦合采集，其中触觉数据来自高密度指尖传感器阵列，能精确捕捉毫秒级压力分布与纹理信息。数据集覆盖超过10种真实场景和40余种日常任务，涵盖了高灵敏度力控、动态接触跟随等多种接触密集型操作类别。尤为突出的是，其硬件设计确保了人机交互界面与机器人执行平台在传感器层面的一致性，有效缩小了领域鸿沟，为学习具有强泛化能力的机器人策略提供了坚实基础。

使用方法

为充分利用该数据集进行策略学习，研究提出了一套包含数据预处理与两阶段训练的方法论。首先，通过运动学重定向、空间坐标对齐与触觉去噪等预处理步骤，将原始人类演示数据适配到异构的机器人硬件平台。随后，采用两阶段训练策略：第一阶段通过基于运动学锚定的自监督预训练框架，学习时空一致的视觉-触觉表征，以解决触觉信号的语义模糊性问题；第二阶段将预训练编码器集成至基于Transformer的动作分块策略网络中，将同步的多模态观测映射为多步动作序列，从而高效学习复杂的接触密集型灵巧操作技能。

背景与挑战

背景概述

在机器人灵巧操作领域，实现通用且鲁棒的接触式操作策略依赖于大规模高质量的多模态演示数据。DexViTac数据集由华中科技大学智能装备与技术全国重点实验室联合武汉华威科智能技术有限公司的研究团队于2026年提出，旨在解决接触密集型灵巧操作中视觉-触觉-运动学数据同步采集的瓶颈。该数据集的核心研究问题聚焦于如何在非结构化真实环境中，高效获取人类演示的高保真第一人称视觉、高密度触觉感知以及手部运动学信息，以支持跨硬件平台的通用策略学习。通过集成鱼眼相机、动作捕捉手套、高分辨率触觉传感器和追踪相机，DexViTac构建了一个包含超过2400个演示、涵盖10余种环境和40多项任务的大规模数据集，显著推动了机器人多模态感知与操作策略的发展。

当前挑战

DexViTac数据集致力于解决接触密集型灵巧操作中的两大核心挑战。在领域问题层面，传统基于视觉或低自由度夹爪的演示系统难以捕捉精细的触觉反馈，导致在视觉遮挡或需高精度力控的任务中策略性能受限。该数据集通过同步采集高分辨率触觉阵列与手部运动学数据，旨在克服模态缺失问题，为学习稳定、精细的物理交互策略提供关键信息。在构建过程中，研究团队面临多模态数据的高保真同步与语义对齐难题。具体而言，异质传感器具有不同的采样频率与时空特性，触觉信号本身存在空间语义模糊性，即局部触觉特征脱离手部整体运动学配置时缺乏物理意义。为此，数据集采用硬件缓冲与触觉主导的软件对齐策略，并引入运动学锚定的表示学习框架，以保障数据因果完整性并消除语义歧义。

常用场景

经典使用场景

在灵巧操作机器人领域，实现接触丰富的精细任务需要融合多模态感知数据。DexViTac数据集的核心应用场景在于为机器人学习提供大规模、高质量的视觉-触觉-运动学演示数据。该系统通过便携式人本数据采集架构，在非结构化真实环境中同步获取第一人称广角视觉、高密度触觉阵列和19自由度手部运动学信息，为构建通用化机器人策略奠定了数据基础。其经典使用方式体现在通过异构传感器的时间同步与语义对齐，生成严格配准的多模态轨迹，直接服务于接触动力学建模与闭环控制策略的端到端学习。

解决学术问题

该数据集有效解决了接触丰富灵巧操作中的若干关键学术难题。首先，它通过硬件层面的同构感知设计，弥合了人机交互中的领域鸿沟，为跨硬件平台的策略迁移提供了可能。其次，数据集配套的基于运动学锚定的触觉表征学习框架，从根本上化解了高维触觉信号固有的空间语义模糊性问题，使局部触觉特征能够与全局手部构型建立物理一致的对应关系。此外，大规模多环境数据采集能力克服了传统方法在非结构化场景中数据稀缺的瓶颈，为研究真实世界中的泛化性提供了实证基础。

衍生相关工作

该数据集的发布催生了触觉增强型灵巧操作研究的新方向。在硬件架构层面，其便携式人本设计理念影响了后续如Exo-ViHA等外骨骼系统的开发。在算法层面，其提出的运动学锚定表征学习方法为Vitamin、VTDexManip等工作提供了重要启示，推动了跨模态对比学习与时空一致性建模在触觉理解中的应用。数据集构建方法论也对DexCap、DexWild等大规模演示数据采集系统产生了直接影响，促进了领域内对多模态数据标准化与高效采集范式的共识形成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集