five

EgoTouch

收藏
github2026-04-04 更新2026-04-05 收录
下载链接:
https://github.com/Jianyi2004/TouchAnything
下载链接
链接失效反馈
官方服务:
资源简介:
EgoTouch是第一个结合了多视角同步视频(自我中心视角+双腕摄像头)与真实触觉压力数据的大规模数据集,包含302种不同的操作任务,跨越4,530个场景,涵盖室内和室外环境。数据集提供了同步的多视角视频、双手3D手部姿势(42个关节)以及来自可穿戴触觉传感器的密集连续压力图。

EgoTouch is the first large-scale dataset that integrates synchronized multi-view videos (including egocentric view and dual-wrist cameras) and real tactile pressure data. It encompasses 302 distinct manipulation tasks across 4,530 scenarios spanning both indoor and outdoor environments. The dataset provides synchronized multi-view videos, 3D hand poses of both hands (with 42 joints), as well as dense continuous pressure maps from wearable tactile sensors.
创建时间:
2026-04-03
原始信息汇总

TouchAnything 数据集概述

数据集简介

TouchAnything 项目提出了首个用于第一人称视角视频中双手触觉估计的大规模数据集和框架。其核心数据集 EgoTouch 是首个为第一人称视角手物交互提供多视角同步视频、双手三维手部姿态以及来自可穿戴触觉传感器的密集连续压力图的大规模数据集。

关键特性

  • 多视角采集:首个结合多视角同步视频(第一人称视角 + 双腕部摄像头)与真实触觉压力数据的数据集。
  • 密集触觉感知:来自可穿戴传感器的真实连续压力分布,捕捉细粒度的接触动态。
  • 双手交互:包含42个关节的三维手部姿态标注的双手操作数据,支持分析协调的手物交互。
  • 同步模态:视频、姿态和压力数据在帧级别精确同步,支持对接触事件的精确时序建模。

数据集统计

指标 数值
操作任务 302
数据片段 4,530
摄像头视角 3个(第一人称 + 双腕部)
手部关节 42个(双手)
总帧数 约2百万
物体数量 1,000+
环境 室内与室外

主要贡献

  1. 首个大规模多视角触觉数据集:用于第一人称视角手物交互,包含302个任务、4,530个数据片段、双手姿态以及跨越多样室内外场景的密集连续压力图。
  2. 首个多视角触觉预测基准:包含评估协议,量化了互补腕部视角的作用,并显示了在严重遮挡下的明显增益。
  3. 新的多视角触觉预测架构:具有共享视觉编码、跨视角注意力和视角丢弃策略,能够灵活地使用任何可用的视角组合进行推理。

数据采集设置

数据采集系统集成以下设备:

  • 头戴式广角摄像头:从广角第一人称视角捕捉全局操作上下文。
  • 双腕部摄像头:观察手物接触区域以克服遮挡。
  • 压力感应手套:记录每个手掌上密集的16×16压力图。
  • 动作捕捉系统:以30Hz频率追踪42个关节的双手三维手部姿态。
  • 时间同步:所有模态以毫秒精度对齐。

数据格式

每个数据片段存储为一个HDF5文件,结构如下:

├── images/ # 图像数据 │ ├── chest_color # (T, 480, 640, 3) 第一人称RGB │ ├── left_color # (T, 480, 640, 3) 左腕部RGB │ ├── right_color # (T, 480, 640, 3) 右腕部RGB │ └── *_depth # (T, 480, 640) 深度图 ├── hands/ # 手部数据 │ ├── left_joint_xyz # (T, 21, 3) 左手姿态 │ ├── right_joint_xyz # (T, 21, 3) 右手姿态 │ └── *_joint_orientation # (T, 21, 4) 关节四元数 ├── pressure/ # 压力数据 │ ├── left_pressure_grid # (T, 21, 21) 归一化[0,1] │ ├── right_pressure_grid # (T, 21, 21) 归一化[0,1] │ └── task_vmax (attr) # 任务级归一化因子 ├── poses/ # 位姿数据 │ ├── chest_pose # (T, 7) 第一人称摄像头位姿 [xyz, quat] │ ├── left_pose # (T, 7) 左腕部摄像头位姿 │ └── right_pose # (T, 7) 右腕部摄像头位姿 └── metadata/ # 元数据 ├── task_name, trajectory_id, fps, num_frames └── camera_resolution

T:每个片段的帧数(约120帧 @ 30Hz)。

许可信息

本项目采用 MIT 许可证。详情见许可证文件。

状态说明

根据README文件,数据集、论文和代码均标注为“即将发布”。项目网站和初始README已于2026年4月发布。

搜集汇总
数据集介绍
main_image_url
构建方式
在触觉感知与机器人操作领域,EgoTouch数据集的构建体现了多模态数据采集的系统性设计。该数据集通过集成头戴式广角相机、双腕部相机、压力感应手套以及运动捕捉系统,在室内外多样化场景中记录了302种不同的双手操作任务。所有传感器实现了毫秒级的时间同步,确保了视频、三维手部姿态与密集压力图在帧级别上的精确对齐,从而构建出包含约200万帧的大规模多视角触觉交互数据集。
特点
EgoTouch数据集的核心特点在于其首次将多视角同步视频、双手三维姿态与真实密集压力数据融为一体。数据集不仅提供了自我中心视角与双腕部视角的三路同步视频,还通过可穿戴传感器捕获了每只手掌上16×16的连续压力分布,精细刻画了接触动力学。此外,数据集涵盖超过1000种物体,并在双手42关节的三维姿态标注支持下,为分析复杂的手-物协调交互提供了前所未有的多模态基础。
使用方法
该数据集以HDF5格式组织,每个交互片段包含图像、手部姿态、压力网格与相机位姿等同步模态。研究人员可通过读取标准化数据结构,利用其多视角视频与对应的压力标签,训练触觉预测模型。数据集支持从仅自我中心视角到完整多视角的灵活推理,其提供的基准评估协议能够量化互补视角在严重遮挡下的性能增益,为触觉感知与具身智能研究提供了可靠的实验平台。
背景与挑战
背景概述
在机器人学与计算机视觉交叉领域,手物交互的触觉感知一直是实现灵巧操作的关键瓶颈。传统数据集多局限于受控环境或单一模态,难以支撑真实场景下多视角、多模态的触觉推理研究。为此,哈尔滨工业大学(深圳)与美团机器人学院的研究团队于2026年推出了EgoTouch数据集,作为首个面向自我中心视角的大规模多视角触觉数据集。该数据集聚焦于解决双手操作中触觉压力的密集估计问题,通过融合自我中心视角与双腕部视角的同步视频、双手三维姿态以及可穿戴触觉传感器采集的连续压力分布,为手物交互的细粒度建模提供了前所未有的多模态基准。其涵盖302种操纵任务、4530个交互片段,覆盖室内外多样环境,显著推动了具身智能与触觉感知领域向真实世界应用的迈进。
当前挑战
EgoTouch数据集致力于攻克手物交互中触觉估计的核心难题,其首要挑战在于如何从严重遮挡的自我中心视频中可靠推断密集接触压力。现有方法常因单一视角的视觉信息不足而失效,尤其在双手操作时,手指与物体间的复杂遮挡导致接触区域难以辨识。构建过程中的挑战同样严峻,需实现多模态数据的高精度同步采集与对齐。研究团队需集成头戴式广角相机、双腕部相机、压力传感手套与动作捕捉系统,确保视频、姿态与压力数据在毫秒级精度下严格同步。此外,在多样化的室内外场景中采集大规模、高质量的压力分布数据,并处理超过1000种不同物体的交互序列,对数据采集的鲁棒性与标注的一致性提出了极高要求。
常用场景
经典使用场景
在机器人触觉感知与灵巧操作领域,EgoTouch数据集为多模态学习提供了关键基准。其经典使用场景在于训练和评估基于视觉的触觉预测模型,通过整合第一人称视角与双腕部摄像头的多视图视频流,模型能够从遮挡严重的交互场景中推断出手部与物体接触时的密集压力分布。这一场景尤其适用于研究双手操作任务中视觉信息与触觉信号的互补关系,为理解人类灵巧操作中的感知-动作闭环奠定了数据基础。
实际应用
该数据集的实际应用价值在机器人技术与人机交互领域尤为显著。基于EgoTouch训练的模型可赋能服务机器人执行复杂的双手操作任务,例如在家庭环境中安全地抓取易碎物品或使用工具。在虚拟现实与远程操作系统中,该数据集有助于生成逼真的触觉反馈,提升沉浸感与操作精度。此外,其多视图架构设计启发了对可穿戴传感系统的优化,使得在真实世界遮挡条件下实现鲁棒的触觉感知成为可能,为下一代智能假肢与康复设备的发展提供了关键技术支撑。
衍生相关工作
围绕EgoTouch数据集,已衍生出一系列具有影响力的研究工作。其提出的TouchAnything框架作为首个多视图触觉预测的统一架构,引入了共享视觉编码、跨视图注意力与视图丢弃策略,为后续研究设立了基准。该数据集也催生了对于遮挡场景下触觉补全、跨视图特征融合以及少样本触觉学习等新方向的探索。同时,它推动了与现有数据集(如EgoPressure、ARCTIC)的对比分析与融合研究,促进了触觉感知社区在基准构建与评估协议上的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作