OpenTouch

github2026-03-19 更新2026-03-20 收录

下载链接：

https://github.com/OpenTouch-MIT/opentouch

下载链接

链接失效反馈

官方服务：

资源简介：

OpenTouch是一个以自我为中心的野外数据集和跨模态学习框架，包含视觉（RGB）、触觉（压力）和手部姿势模态。数据组织为同步的多模态记录：以自我为中心的RGB视频流、全手触觉压力图和手部姿势。

OpenTouch is an egocentric in-the-wild dataset and cross-modal learning framework that encompasses visual (RGB), tactile (pressure), and hand pose modalities. The data is structured as synchronized multimodal recordings: egocentric RGB video streams, full-hand tactile pressure maps, and hand poses.

创建时间：

2026-03-19

原始信息汇总

OPENTOUCH 数据集概述

数据集基本信息

数据集名称：OPENTOUCH
核心描述：一个以自我为中心、在真实世界场景下采集的多模态数据集及跨模态学习框架，包含视觉（RGB）、触觉（压力）和手部姿态模态。
官方资源：
- 项目主页：https://opentouch-tactile.github.io/
- 论文：https://arxiv.org/abs/2512.16842
- 硬件：https://wiresens-gloves.vercel.app/
- 数据集下载脚本：scripts/download_data.sh

数据内容与组织

数据模态：同步记录的多模态数据流，包括：
1. 以自我为中心的RGB视频流。
2. 全手触觉压力图。
3. 手部姿态。
数据存储：数据集托管于Google Drive。
下载方式：使用 gdown 工具通过提供的脚本下载。 bash pip install gdown bash scripts/download_data.sh cd data && unzip final_annotations.zip && cd ..
文件列表：完整的Google Drive文件ID列表位于 scripts/download_data.sh 中。

数据处理与使用

环境配置：推荐使用Python 3.10创建Conda环境并安装依赖。
可选渲染：如需进行MANO手部网格可视化，需安装额外依赖并获取MANO手部模型文件 (MANO_RIGHT.pkl)。
数据格式转换：
- 支持将HDF5格式的原始数据转换为检索任务或分类任务所需的Arrow数据集格式。
- 转换脚本：build_retrieval_data.py 与 build_label_data.py。
示例可视化：可通过 preprocess/build_demo.py 脚本从HDF5记录生成同步可视化视频（RGB + 触觉MANO + 手部姿态）。

模型与任务

视觉骨干网络：默认使用DINOv3 ViT-B/16模型 (facebook/dinov3-vitb16-pretrain-lvd1689m)，使用需遵循Meta的相关许可。
支持任务：
1. 跨模态检索：支持六种不同的模态间检索任务（如视觉↔触觉、姿态↔触觉等）。
2. 分类：支持基于相同编码器的动作或抓握分类任务。
训练与评估：提供了针对检索和分类任务的独立训练与评估脚本。

引用

如需在研究中引用此数据集，请使用以下BibTeX条目： bibtex @article{song2025opentouch, title={OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction}, author={Song, Yuxin Ray and Li, Jinzhou and Fu, Rao and Murphy, Devin and Zhou, Kaichen and Shiv, Rishi and Li, Yaqi and Xiong, Haoyu and Owens, Crystal Elaine and Du, Yilun and others}, journal={arXiv preprint arXiv:2512.16842}, year={2025} }

致谢

该代码库基于 OpenCLIP 构建。

搜集汇总

数据集介绍

构建方式

在触觉感知与计算机视觉交叉领域，OpenTouch数据集通过同步采集多模态数据构建而成。研究团队在真实世界场景中部署了头戴式设备，连续记录以自我为中心的RGB视频流，同时利用集成压力传感器的触觉手套捕捉全手触觉压力分布，并结合手部姿态跟踪技术，实现了视觉、触觉与姿态信息的精准对齐与时间同步。数据采集过程涵盖了多样化的日常交互任务，确保了数据在自然环境下的代表性与丰富性。

特点

该数据集的核心特点在于其首次提供了大规模、在真实世界中同步记录的全手触觉压力图、自我中心视觉流与手部姿态的三模态数据。触觉数据以高空间分辨率映射了整个手部的压力分布，突破了以往仅关注指尖或局部触觉的局限。多模态数据在时间上严格同步，为研究跨模态表征学习、感知对齐及具身智能提供了前所未有的高质量资源。数据采集于非受控的日常环境，极大增强了其在现实应用中的泛化能力与实用价值。

使用方法

数据集以HDF5格式存储，用户可通过提供的脚本便捷下载与解压。为便于模型训练，工具脚本支持将原始数据转换为高效的Arrow格式。该资源主要服务于跨模态检索与动作分类两大任务：在检索任务中，支持视觉、触觉、姿态三者间任意方向的配对检索；在分类任务中，则可基于单一或融合模态进行动作或抓握类型的识别。研究框架基于PyTorch实现，并提供了完整的训练、评估流程脚本，用户可灵活配置任务类型、模态组合及模型参数，以开展深入的算法验证与比较研究。

背景与挑战

背景概述

在具身智能与人机交互领域，高保真地捕捉和理解手部与物理世界的触觉交互，是实现自然、灵巧操作的关键。OpenTouch数据集于2025年由Yuxin Ray Song等研究人员提出，旨在解决真实世界场景下多模态手部交互数据的稀缺性问题。该数据集同步采集了以自我为中心的RGB视频、全手触觉压力图以及手部姿态数据，为核心研究问题——即视觉、触觉与姿态信息的跨模态对齐与联合理解——提供了大规模、在野外的实证基础。其构建为机器人灵巧操作、虚拟现实交互及触觉感知模型的发展奠定了重要的数据基石。

当前挑战

OpenTouch致力于应对机器人触觉感知与跨模态学习中的核心挑战，即在复杂、非结构化的真实环境中，如何实现视觉、触觉与手部运动信息的高效对齐与语义理解。具体而言，构建过程面临多重技术难题：多传感器（RGB相机、压力传感器、姿态捕捉系统）在动态场景下的精确时间同步与空间标定极具挑战；全手高密度触觉数据的采集需克服传感器部署、信号噪声抑制与数据一致性的困难；此外，为大规模、多模态序列数据提供精细的动作与抓握标注，亦是一项耗费巨大且要求极高准确性的工作。

常用场景

经典使用场景

在具身智能与人机交互领域，OpenTouch数据集为多模态学习提供了真实世界的触觉感知基准。其经典使用场景集中于跨模态检索任务，例如视觉到触觉的匹配，研究者通过同步的RGB视频、全手触觉压力图与手部姿态数据，训练模型理解视觉外观与触觉反馈之间的内在关联。该场景模拟了人类通过视觉预测触觉或通过触觉回忆视觉经验的自然认知过程，为构建具备多感官融合能力的智能体奠定了基础。

解决学术问题

OpenTouch数据集有效解决了真实环境下触觉感知数据稀缺且难以同步采集的核心学术难题。传统触觉研究多受限于实验室环境或简化传感器，该数据集通过提供大规模、非受控的“野外”多模态序列，使得研究触觉与视觉、姿态的联合表征学习成为可能。其意义在于首次将全手高分辨率触觉图引入日常交互场景，推动了触觉理解从孤立模态向跨模态关联的范式转变，为具身AI提供了至关重要的感知基础。

衍生相关工作

围绕OpenTouch数据集，已衍生出若干经典的研究方向与模型框架。其提出的跨模态检索框架（如视觉↔触觉、姿态↔触觉）本身即是一项基础性工作，为后续研究提供了基准。基于其构建的分类器（动作识别、抓握类型识别）展示了多模态特征在高层语义任务中的有效性。该工作也促进了以DINOv3等视觉骨干网络融合触觉编码的架构探索，并可能启发后续研究关注触觉生成、触觉驱动的机器人技能学习等更前沿的课题。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集