EgoTouch
收藏TouchAnything 数据集概述
数据集简介
TouchAnything 项目提出了首个用于第一人称视角视频中双手触觉估计的大规模数据集和框架。其核心数据集 EgoTouch 是首个为第一人称视角手物交互提供多视角同步视频、双手三维手部姿态以及来自可穿戴触觉传感器的密集连续压力图的大规模数据集。
关键特性
- 多视角采集:首个结合多视角同步视频(第一人称视角 + 双腕部摄像头)与真实触觉压力数据的数据集。
- 密集触觉感知:来自可穿戴传感器的真实连续压力分布,捕捉细粒度的接触动态。
- 双手交互:包含42个关节的三维手部姿态标注的双手操作数据,支持分析协调的手物交互。
- 同步模态:视频、姿态和压力数据在帧级别精确同步,支持对接触事件的精确时序建模。
数据集统计
| 指标 | 数值 |
|---|---|
| 操作任务 | 302 |
| 数据片段 | 4,530 |
| 摄像头视角 | 3个(第一人称 + 双腕部) |
| 手部关节 | 42个(双手) |
| 总帧数 | 约2百万 |
| 物体数量 | 1,000+ |
| 环境 | 室内与室外 |
主要贡献
- 首个大规模多视角触觉数据集:用于第一人称视角手物交互,包含302个任务、4,530个数据片段、双手姿态以及跨越多样室内外场景的密集连续压力图。
- 首个多视角触觉预测基准:包含评估协议,量化了互补腕部视角的作用,并显示了在严重遮挡下的明显增益。
- 新的多视角触觉预测架构:具有共享视觉编码、跨视角注意力和视角丢弃策略,能够灵活地使用任何可用的视角组合进行推理。
数据采集设置
数据采集系统集成以下设备:
- 头戴式广角摄像头:从广角第一人称视角捕捉全局操作上下文。
- 双腕部摄像头:观察手物接触区域以克服遮挡。
- 压力感应手套:记录每个手掌上密集的16×16压力图。
- 动作捕捉系统:以30Hz频率追踪42个关节的双手三维手部姿态。
- 时间同步:所有模态以毫秒精度对齐。
数据格式
每个数据片段存储为一个HDF5文件,结构如下:
├── images/ # 图像数据 │ ├── chest_color # (T, 480, 640, 3) 第一人称RGB │ ├── left_color # (T, 480, 640, 3) 左腕部RGB │ ├── right_color # (T, 480, 640, 3) 右腕部RGB │ └── *_depth # (T, 480, 640) 深度图 ├── hands/ # 手部数据 │ ├── left_joint_xyz # (T, 21, 3) 左手姿态 │ ├── right_joint_xyz # (T, 21, 3) 右手姿态 │ └── *_joint_orientation # (T, 21, 4) 关节四元数 ├── pressure/ # 压力数据 │ ├── left_pressure_grid # (T, 21, 21) 归一化[0,1] │ ├── right_pressure_grid # (T, 21, 21) 归一化[0,1] │ └── task_vmax (attr) # 任务级归一化因子 ├── poses/ # 位姿数据 │ ├── chest_pose # (T, 7) 第一人称摄像头位姿 [xyz, quat] │ ├── left_pose # (T, 7) 左腕部摄像头位姿 │ └── right_pose # (T, 7) 右腕部摄像头位姿 └── metadata/ # 元数据 ├── task_name, trajectory_id, fps, num_frames └── camera_resolution
T:每个片段的帧数(约120帧 @ 30Hz)。
许可信息
本项目采用 MIT 许可证。详情见许可证文件。
状态说明
根据README文件,数据集、论文和代码均标注为“即将发布”。项目网站和初始README已于2026年4月发布。




