EgoTouch

Name: EgoTouch
Creator: 哈尔滨工业大学·深圳; 美团机器人研究院; 清华大学·深圳国际研究生院
Published: 2026-05-13 14:54:36
License: 暂无描述

arXiv2026-05-13 更新2026-05-15 收录

下载链接：

https://jianyi2004.github.io/TouchAnything-Website/

下载链接

链接失效反馈

官方服务：

资源简介：

EgoTouch是由哈尔滨工业大学·深圳等机构联合创建的大规模多视角自我中心数据集，旨在为双手物体交互提供密集的触觉监督。该数据集包含208个操作任务、1891个交互片段，总计超过20小时的多模态数据，涵盖1000余个物体，帧数达210万，数据来源于头戴式及腕戴式摄像头同步采集的RGB视频、双手三维姿态及可穿戴触觉传感器获取的连续压力图。其创建过程通过可穿戴捕获系统在多样室内外环境中记录自然双手操作行为，并实现多模态数据的帧级时间对齐。该数据集主要应用于具身智能领域，旨在解决从视觉观测中推断触觉反馈的核心问题，支持物理交互动力学的跨模态学习，为视觉到触觉的预测研究提供基准。

EgoTouch is a large-scale multi-view egocentric dataset jointly developed by Harbin Institute of Technology (Shenzhen) and other institutions, aiming to provide dense tactile supervision for two-handed object interaction. The dataset contains 208 manipulation tasks, 1891 interaction segments, with a total of over 20 hours of multimodal data, covering more than 1000 objects and 2.1 million frames. The data consists of RGB videos synchronously captured by head-worn and wrist-worn cameras, 3D hand poses, and continuous pressure maps acquired from wearable tactile sensors. During its construction, natural two-handed manipulation behaviors were recorded in diverse indoor and outdoor environments using wearable capture systems, and frame-level temporal alignment of multimodal data was achieved. This dataset is primarily applied in the field of embodied intelligence, aiming to solve the core problem of inferring tactile feedback from visual observations, supporting cross-modal learning of physical interaction dynamics, and serving as a benchmark for vision-to-tactile prediction research.

提供机构：

哈尔滨工业大学·深圳; 美团机器人研究院; 清华大学·深圳国际研究生院

创建时间：

2026-05-13

原始信息汇总

好的，根据您提供的HTML内容，以下是该数据集的详情总结：

数据集概述：EgoTouch & TouchAnything

EgoTouch 是一个大规模、多视角、以自我为中心的触觉数据集，旨在通过自我中心视频进行双手触觉估计。

核心信息

名称: EgoTouch (项目名称为 TouchAnything)
作者/机构: 哈尔滨工业大学（深圳）、美团机器人研究院、清华大学深圳国际研究生院
规模: 包含 208 个不同操作任务，共计 1,891 个片段。
数据模态: 提供同步的多模态数据，包括：
- 多视角视频: 头戴式第一人称视角 + 双手腕佩戴相机视角。
- 双手3D手部姿态: 共 42 个手部关节。
- 密集连续压力图: 来自可穿戴触觉传感器的真实压力分布数据。
环境: 涵盖室内和室外多种环境。

主要特点

多视角采集: 首个整合了多视角同步视频（自我中心视角+双腕部视角）与真实触觉压力数据的数据集。
密集触觉感知: 提供来自可穿戴传感器的真实连续压力分布，可捕捉精细的接触动态。
双手交互: 提供带 42 个关节3D手部姿态标注的双手操作数据，支持协调手-物体交互分析。
模态同步: 实现了视频、姿态和压力数据在帧级别的精确同步。

数据集统计

操作任务: 208 个
片段数: 1.9K (1,891)
相机视角: 3 个
手部关节: 42 个

基线框架：TouchAnything

TouchAnything 是基于 EgoTouch 数据集建立的多视角视觉到触觉预测基线框架。它是一个视觉到触觉的预测模型，具备以下特点：

输入: 主要以自我中心视角为主，推理时可灵活利用可用的腕部相机视角。
方法: 采用共享的 DINOv2 视觉编码器、可学习的视角嵌入、跨视角Transformer注意力机制和视角丢弃训练策略。
性能: 实验表明，加入腕部视角通常能提升触觉预测效果，在接触交并比上最高可实现 5.0% 的相对提升，在体积交并比上最高可实现 6.1% 的相对提升。

搜集汇总

数据集介绍

构建方式

在具身智能研究中，触觉感知对于理解物理交互至关重要，而现有第一人称数据集普遍缺乏此类信号。EgoTouch针对这一瓶颈应运而生，其构建过程中，研究人员采用了一套精密的穿戴式采集系统，同步记录了头部与双腕部摄像头的RGB视频、Rokoko动作捕捉手套提供的双手三维手部姿态，以及定制压力手套捕获的16×16密集连续压力图。所有数据流，包括HTC Vive跟踪器的6自由度位姿，均在30Hz的共享时间轴上通过时间戳实现帧级严格对齐。系统涵盖了家庭、工作台、办公室、零售与户外五大类共208项操作任务，涉及超过1000种物体，总计1891个交互片段，从而构建了一个大规模、多视角、带有密集触觉标注的双手套手-物交互数据集。

特点

EgoTouch数据集的独到之处在于其多视角与多模态的深度融合设计。与传统依赖单一头部视角的数据集不同，它创新性地引入了双腕部摄像头，直接观测常被手部或物体遮挡的接触区域，为因遮挡导致的触觉预测模糊性提供了关键的互补视觉证据。这一设计使数据能同时捕捉全局操作场景与局部接触细节。此外，数据集的标注维度极为丰富，包含了帧级同步的第一人称视频、双手三维关节姿态以及双侧手部的21×21规范化压力网格，为研究从视觉到触觉的跨模态映射提供了坚实的物理监督信号。并且，其任务覆盖广泛的室内外真实环境，具备强大的场景多样性和对象泛化能力。

使用方法

基于EgoTouch的数据特性，研究者提出了TouchAnything框架，该框架可灵活适配从仅头部视角到全多视角的不同输入配置。使用此数据集时，模型首先以DINOv2冻结主干编码每个视角的视觉特征，并附可学习的视角标识嵌入。随后，通过轻量级交叉注意力与门控融合机制整合多视角信息，并由手部关节特征通过交叉注意力与视觉特征进行空间对齐融合。设计的核心在于训练时采用的视角随机丢弃策略（腕部视角以0.3概率随机移除），强制模型学习鲁棒的视角无关表征，使其在推理时能自然应对缺失视角。最终，利用一个关节级别的解码器独立预测双手的21×21压力图，并结合加权MSE、L1损失与总变分正则化进行端到端优化，从而实现对接触位置与压力强度的精准估计。

背景与挑战

背景概述

EgoTouch数据集由哈尔滨工业大学（深圳）联合美团机器人研究院与清华大学深圳国际研究生院于2026年5月发布，旨在解决具身智能研究中触觉感知数据匮乏的核心瓶颈。现有第一人称视频数据集虽能大规模捕捉人-环境交互的视觉信息，却普遍缺失接触力、压力分布等关键物理信号，导致模型难以学习真实世界交互的动态物理表征。该数据集以“能否直接从视觉观测推断触觉反馈”为核心研究问题，通过同步采集头戴式与双腕相机RGB视频、双手3D手部姿态以及可穿戴触觉传感器提供的连续压力图，构建了涵盖208项操作任务、1891个片段、超20小时交互时长的多模态资源。其发布的基准模型TouchAnything验证了多视角融合对触觉预测的有效性，为触觉驱动的具身感知与操作学习奠定了基础。

当前挑战

EgoTouch面临的挑战主要体现在两个层面。在领域问题层面，视觉到触觉的预测任务本质上是病态的——交互过程中的手-物接触区域常被手部自身或操作物体遮挡，仅凭头戴式视角难以获取完整的接触证据；此外，触觉信号的稀疏性使得模型容易倾向于预测全零输出，需要设计特殊的损失加权策略以鼓励有意义的预测。在数据集构建层面，其面临的挑战包括：多模态数据流的精确帧级同步（如相机、运动手套、压力手套与跟踪器的时间对齐）、可穿戴触觉手套本身的材质与外观偏差可能限制对裸手操作的泛化能力，以及当前数据规模下模型性能尚未饱和，仍需持续扩展以覆盖更多物体、环境与接触模式。

常用场景

经典使用场景

在具身智能研究领域，EgoTouch数据集被广泛用于视觉到触觉的跨模态预测任务。该数据集提供了大规模、多视角的第一人称视频数据，包括头戴式相机和双腕部相机的同步RGB图像，以及连续的双臂压力图轨迹。研究者通过将第一人称视频作为主要输入，结合手腕视角的辅助信息，训练模型从视觉观测中推断出精细的触觉信号，如接触区域、压力分布和力的大小。这一经典使用场景不仅验证了多视角视觉信息对缓解遮挡问题的有效性，还为触觉感知提供了可扩展的监督信号，推动了物理交互动态建模的研究。

实际应用

EgoTouch数据集在实际应用中展现出广泛的潜力，尤其在机器人操作和辅助技术领域。在机器人学习中，该数据集可用于训练从人类演示视频中提取触觉信息的模型，使机器人能够理解抓取、按压等操作中的物理交互动态，从而提升操作的稳定性和适应性。在辅助设备开发中，EgoTouch支持无传感器触觉估计，通过分析身戴相机视频即可估算人手接触力，为假肢控制、康复训练和智能交互系统提供了低成本、非侵入式的触觉反馈方案。此外，在虚拟现实和增强现实应用中，该数据库可用于生成更加真实和沉浸式的触觉反馈体验。

衍生相关工作

基于EgoTouch数据集，研究者们衍生了一系列经典工作。其中，TouchAnything框架作为基线方法，提出了多视角视觉到触觉预测模型，通过视图丢弃训练策略实现了灵活的端到端推理，在接触IoU和体积IoU指标上分别相对提升了5.0%和6.1%。后续工作进一步探索了将触觉预测与机器人策略学习相结合，利用EgoTouch的密集压力标注训练接触感知操作模型。还有研究将该数据集用于生成式触觉数据合成，通过多视角视频和压力图学习触觉信号的概率分布，推动触觉数据增强和跨场景泛化。此外，EgoTouch也启发了手部姿态与接触联合估计的新范式，促进了触觉与运动模态融合的深入研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集