OPENTOUCH
收藏arXiv2025-12-19 更新2025-12-20 收录
下载链接:
https://opentouch-tactile.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
OPENTOUCH是由麻省理工学院等机构联合创建的首个野外环境全手触觉数据集,包含5.1小时同步的视觉-触觉-姿态数据和2900条人工审核片段。数据集通过定制触觉手套和动作捕捉系统,采集了14种日常环境中8000余种物体的自然交互数据,每段数据均标注物体类别、抓握类型等六类标签。该数据集突破了传统触觉数据受控环境的限制,为多模态感知、具身学习等领域提供了接触力分布、物体透明度等视觉难以捕捉的物理交互特征,显著推进了机器人操作等接触密集型任务的研究。
OPENTOUCH is the first full-hand haptic dataset for unconstrained real-world environments, jointly developed by the Massachusetts Institute of Technology (MIT) and other partnering institutions. It contains 5.1 hours of synchronized visual, haptic, and pose data, alongside 2900 manually reviewed segments. Using custom-built haptic gloves and motion capture systems, the dataset collects natural interaction data for over 8,000 objects across 14 daily scenarios. Each segment is annotated with six categories of labels including object category and grasp type. This dataset overcomes the constraints of controlled environments that most traditional haptic datasets are limited to, providing physical interaction features that are difficult to capture via vision—such as contact force distribution and object transparency—for fields including multimodal perception and embodied learning, thereby significantly advancing research in contact-intensive tasks such as robotic manipulation.
提供机构:
麻省理工学院, 杜克大学, 布朗大学, 华盛顿大学, 哈佛大学
创建时间:
2025-12-19
原始信息汇总
OpenTouch数据集概述
数据集基本信息
- 数据集名称:OpenTouch
- 核心描述:首个在真实世界环境中采集的、包含同步自我中心视频、力感知全手触觉和手部姿态轨迹的全手触觉数据集。
- 数据内容:包含5小时的记录,其中3小时为密集标注的、接触丰富的交互数据。
- 数据模态:自我中心视频、全手触觉、手部姿态。
数据采集与标注
- 硬件设备:Meta Aria眼镜、Rokoko Smartgloves、基于FPC的触觉传感器。
- 同步与延迟:以30 Hz频率同步,平均延迟为2 ms。
- 标注生成:高层描述和详细标注通过大型语言模型从自我中心视频和渲染的触觉地图自动生成。
数据规模与覆盖范围
- 环境:涵盖14个日常环境。
- 物体:包含超过8,000个物体,分属14个类别。
基准测试结果
检索基准(双模态)
| 方向 | R@1 | R@5 | R@10 | mAP |
|---|---|---|---|---|
| video → tactile | 7.15 | 26.73 | 39.74 | 15.47 |
| tactile → video | 7.15 | 26.30 | 39.03 | 15.28 |
| pose → tactile | 6.93 | 21.02 | 30.45 | 13.13 |
| tactile → pose | 7.15 | 21.87 | 30.88 | 13.43 |
检索基准(三模态)
| 方向 | R@1 | R@5 | R@10 | mAP |
|---|---|---|---|---|
| video + pose → tactile | 14.08 | 42.96 | 62.26 | 26.86 |
| tactile + pose → video | 12.72 | 38.53 | 53.18 | 23.46 |
| video + tactile → pose | 15.44 | 43.39 | 57.61 | 26.86 |
分类基准
| 模态 | Action Acc. (RN18) | Action Acc. (Lite-CNN) | Grasp Acc. (RN18) | Grasp Acc. (Lite-CNN) |
|---|---|---|---|---|
| V | 40.26 | — | 57.45 | — |
| P | 33.22 | — | 46.32 | — |
| T | 29.95 | 31.59 | 60.23 | 57.12 |
| T + P | 28.31 | 27.00 | 60.72 | 62.19 |
| T + V | 30.11 | 32.73 | 51.72 | 65.47 |
| T + P + V | 35.02 | 37.32 | 55.65 | 68.09 |
相关资源
- 论文:https://arxiv.org/abs/2512.16842
- 代码:即将发布
- 数据集:即将发布
引用信息
@misc{song2025opentouchbringingfullhandtouch, title={OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction}, author={Yuxin Ray Song and Jinzhou Li and Rao Fu and Devin Murphy and Kaichen Zhou and Rishi Shiv and Yaqi Li and Haoyu Xiong and Crystal Elaine Owens and Yilun Du and Yiyue Luo and Xianyi Cheng and Antonio Torralba and Wojciech Matusik and Paul Pu Liang}, year={2025}, eprint={2512.16842}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.16842}, }
搜集汇总
数据集介绍

构建方式
在触觉感知研究领域,捕捉真实世界中的全手触觉信号一直面临技术挑战。OPENTOUCH数据集通过集成定制化柔性印刷电路(FPC)触觉手套、Rokoko智能运动捕捉手套以及Meta Aria智能眼镜,构建了一套低成本的穿戴式多模态同步采集系统。该系统以30赫兹的频率同步记录第一人称RGB视频、全手压力分布图以及三维手部姿态轨迹,确保了时间对齐的精确性。数据采集遵循自然主义协议,参与者在14种日常环境中自由操纵约8000个物体,最终形成了5.1小时的原始多模态流数据,并从中人工筛选出3小时接触密集的交互片段。
特点
作为首个在非受控真实场景中采集的自我中心全手触觉数据集,OPENTOUCH的突出特点在于其多模态同步性与丰富的标注体系。数据集不仅提供了高时空分辨率的触觉压力图,还同步囊括了自我中心视觉、手部运动轨迹、头部姿态、眼动及音频信号。其标注内容极为详尽,涵盖物体名称、类别、环境、动作类型、抓握类型以及自然语言描述,并依据GRASP抓握分类学对抓握姿态进行了系统化归类。尤为重要的是,触觉信号揭示了视觉单独无法辨别的接触力动态变化,例如对透明物体或细微手指动作的精确捕捉,为理解接触物理提供了独特视角。
使用方法
该数据集主要服务于多模态感知与具身智能研究,其使用方法围绕基准任务展开。研究者可利用数据集进行跨感官检索任务,例如给定一段自我中心视频,检索其对应的触觉序列或手部姿态,以此探究视觉、触觉与运动之间的语义对齐关系。同时,数据集支持触觉模式分类任务,如基于多模态信号识别抓握类型或手部动作,评估触觉信息在动作理解中的贡献。此外,OPENTOUCH可作为触觉知识库,通过跨数据集检索(如Ego4D)为大规模自我中心视频数据增补接触与力觉线索,进而推动机器人灵巧操作、多模态表示学习等领域的算法开发与模型训练。
背景与挑战
背景概述
在具身智能与多模态感知领域,理解人类与物理世界的交互需要超越视觉的丰富感官信号。手作为人类与环境交互的主要界面,其触觉信息对于解析接触力、材料属性和精细动作至关重要。然而,现有的大规模自我中心数据集多聚焦于视觉模态,缺乏在自然环境中同步采集的全手触觉数据。为弥合视觉感知与物理交互之间的鸿沟,由麻省理工学院、杜克大学等多所顶尖机构的研究团队于2025年共同创建了OPENTOUCH数据集。该数据集首次在非受控的日常环境中,同步采集了自我中心视频、全手触觉压力图与三维手部姿态轨迹,核心研究问题在于探索触觉如何与视觉、运动信号协同,以更全面地建模和理解人类与物体的交互行为。其发布为多模态自我中心感知、具身学习及接触丰富的机器人操控提供了关键的数据基础,推动了相关领域从纯视觉分析向多感官融合的范式转变。
当前挑战
OPENTOUCH数据集旨在解决触觉增强的多模态感知这一领域核心问题,其面临的挑战主要体现在两个方面。在领域问题层面,如何从稀疏、高维且噪声明显的触觉信号中,有效提取与视觉、姿态信号互补的语义信息,并实现跨模态的精准对齐与检索,是一个关键挑战。这要求模型能够理解触觉模式与特定抓握类型、动作意图之间的复杂映射关系。在数据构建层面,挑战更为具体:首先,设计一套能够在非受控环境中稳定工作、非侵入且保持高灵巧度的可穿戴全手触觉传感系统极具难度,需在传感器分辨率、覆盖范围、鲁棒性与成本之间取得平衡。其次,确保自我中心视频、触觉压力图与手部姿态数据在野外采集条件下的高精度时间同步与空间校准,是保证数据质量与可用性的技术瓶颈。此外,对海量、多样化的非受控交互片段进行高效、准确的多维度标注(如物体类别、动作、抓握类型),也构成了显著的数据处理挑战。
常用场景
经典使用场景
在触觉感知与多模态学习领域,OPENTOUCH数据集为研究视觉-触觉-姿态的跨模态对齐提供了关键实验平台。其经典使用场景集中于通过对比学习框架,实现从第一人称视频到全手触觉信号的序列检索,以及基于触觉模式的手部抓握类型分类。该数据集捕捉了自然环境中多样化的手-物体交互,使得模型能够学习触觉压力分布与视觉场景、手部运动之间的语义关联,从而推动对接触力、抓握稳定性等物理交互属性的深入理解。
解决学术问题
OPENTOUCH数据集有效解决了触觉感知研究中长期存在的真实世界数据稀缺问题。它首次在非受控环境中同步采集了全手触觉信号、自我中心视频与三维手部姿态,为探索触觉如何补充视觉感知提供了实证基础。该数据集支持的研究揭示了触觉信号在抓握类型识别中的高效性,以及多模态融合在减少交互歧义方面的显著优势,从而推动了具身学习、机器人灵巧操作等领域的算法进步。
衍生相关工作
基于OPENTOUCH数据集,研究者们已开展了一系列经典衍生工作。例如,借鉴其多模态对比学习框架,后续研究提出了更高效的触觉-视觉联合嵌入方法;其触觉编码器设计启发了针对稀疏触觉信号的轻量化网络架构。该数据集也被用作基准,评估了从大规模自我中心视频(如Ego4D)中零样本检索触觉模式的可行性,从而促进了触觉知识库的构建与跨数据集泛化能力的研究。
以上内容由遇见数据集搜集并总结生成



