EgoEMG

Name: EgoEMG
Creator: 清华大学·自动化系
Published: 2026-05-07 13:56:57
License: 暂无描述

arXiv2026-05-07 更新2026-05-10 收录

下载链接：

https://github.com/zhenqis123/EgoEMG

下载链接

链接失效反馈

官方服务：

资源简介：

EgoEMG是由清华大学团队构建的多模态手部姿态估计数据集，首次同步了双侧腕带肌电信号（16通道/2kHz采样率）与第一视角RGB视频。数据集包含41名参与者执行的60类手势（30单/30双手势），总时长超10小时，涵盖肌电、IMU、运动捕捉重建的MANO参数及腕关节角度。数据通过光学标记与学习式markers2mano流程生成，无效帧率低至3.6%，适用于跨模态手势识别、假肢控制等增强现实场景，为肌电-视觉融合研究提供基准平台。

EgoEMG is a multimodal hand pose estimation dataset constructed by the team from Tsinghua University. For the first time, it synchronizes bilateral wrist-worn EMG signals (16 channels, 2 kHz sampling rate) and first-person RGB videos. The dataset covers 60 gesture categories (30 single-hand and 30 dual-hand gestures) performed by 41 participants, with a total duration of over 10 hours, including EMG signals, IMU data, MANO parameters reconstructed via motion capture, and wrist joint angles. The data is generated through optical markers and the learned markers2mano pipeline, with an invalid frame rate as low as 3.6%. It is suitable for augmented reality scenarios such as cross-modal gesture recognition and prosthetic control, providing a benchmark platform for myoelectric-visual fusion research.

提供机构：

清华大学·自动化系

创建时间：

2026-05-07

原始信息汇总

EgoEMG数据集概述

数据集简介

EgoEMG是一个多模态自我中心（egocentric）双手手部姿态估计数据集，提供同步的双侧腕带EMG、IMU、自我中心RGB视频、外部RGB-D视频，以及包含手腕关节角度的动捕导出的MANO手部姿态标注。

数据集版本与获取

小样本版本：包含1个片段，约1.1GB的memmap格式数据，适合快速验证和开发。
完整数据集：完整的EgoEMG基准测试数据集。
数据存储格式：采用memmap格式进行预处理，以实现高效加载。
下载方式：通过Google Drive链接下载，提供了gdown命令行下载脚本。

基准测试任务

数据集定义了三项基准任务，均以22自由度的关节角度预测为目标：

EMG到姿态（EMG-to-Pose）：从双侧EMG窗口预测手部关节角度。
视觉到姿态（Vision-to-Pose）：从自我中心RGB手部裁剪图像预测手部关节角度。
EMG+视觉融合（EMG+Vision Fusion）：结合两种模态预测手部关节角度。

评估采用跨手势、跨用户以及组合泛化分割。

预训练检查点

提供六个预训练检查点，覆盖主要基准任务：

EMG到姿态：EMGFormer-Small在EMG2Pose和EgoEMG上的检查点。
视觉到姿态：ResNet-18和ViT-Small的检查点。
EMG+视觉融合：ResNet-18 + EMGFormer-Small和ViT-Small + EMGFormer-Small的检查点。

论文复现结果

关键性能指标（测试MAE）：

任务	方法	测试MAE (弧度)	测试MAE (度数)
EMG到姿态（EMG2Pose）	EMGFormer-Small	0.2153	12.34°
EMG到姿态（EgoEMG）	EMGFormer-Small	0.262	15.0°
视觉到姿态	ResNet-18	0.1021	5.85°
视觉到姿态	ViT-Small	0.1052	6.03°
EMG+视觉融合	ResNet-18 + EMGFormer-Small	0.0978	5.60°
EMG+视觉融合	ViT-Small + EMGFormer-Small	0.0966	5.53°

数据集许可证

基线代码采用MIT许可证，EgoEMG数据集将采用CC-BY-NC 4.0用于研究用途。第三方资源（MANO模型、预训练视觉骨干网络）保持其原始许可证。

引用

如需在研究中使用本基准或数据集，请引用相关论文（论文ID：egoemg2026）。

搜集汇总

数据集介绍

构建方式

EgoEMG数据集由清华大学团队构建，旨在填补多模态手部姿态估计领域中同步肌电信号与视觉数据的空白。研究团队招募了41名参与者，每位受试者双侧手腕各佩戴一副8通道的表面肌电腕带（总计16通道），以2kHz采样频率记录肌肉活动，同时辅以120Hz的惯性测量单元数据。为了捕捉手部运动，参与者头部安装了广角RGB相机以获取第一人称视角视频，外部设置ZED 2i RGB-D传感器提供深度信息，并通过光学运动捕捉系统以120Hz频率追踪每只手上21个反射标记点。所有模态通过主机时间戳软同步与线性插值对齐至统一时间轴。数据集涵盖60种手势类别（30种单手手势与30种双手手势），总计超过10小时的录制时长，手势标签与运动捕捉导出的MANO参数（含手腕关节角度）逐帧对应，确保了多模态数据的时空一致性。

特点

EgoEMG数据集的核心特点在于其多模态融合与高精度标注的协同设计。它首次在同一框架下同步提供双侧腕带肌电信号、第一人称视觉、外部RGB-D信息以及运动捕捉推导的连续手部姿态标签，包括20个手指关节角度和2个手腕关节角度。与现有数据集相比，EgoEMG不仅具备双侧肌电与连续姿态标注，还额外引入了第一人称RGB视频和手腕关节角度，使得研究者能够直接探索肌电与视觉在遮挡、运动模糊等条件下的互补性。数据集在评价上设计了三种泛化分割轴：跨手势、跨用户与组合分割，以系统评估模型在未见手势与未见参与者上的表现。此外，数据集构建了三种基准任务——肌电到姿态、视觉到姿态以及肌电加视觉融合——并采用统一的22自由度关节角度预测目标，为多模态手部姿态估计提供了标准化的评测平台。

使用方法

EgoEMG数据集的使用方法围绕其三大基准任务展开。对于肌电到姿态任务，研究者可利用双侧肌电信号窗口（每段7790个样本）输入至时序模型（如EMGFormer），以预测连续帧的关节角度轨迹。视觉到姿态任务则基于第一人称中心帧的手部裁剪图像（256×256像素），采用ResNet或ViT等通用骨干网络提取特征后回归22个关节角度。肌电加视觉融合任务通过残差架构实现：视觉分支先输出基础姿态预测，肌电分支预测修正量，最终融合结果在中心帧监督下进行优化。所有任务共享相同的数据分割（手势、用户、组合）与评估指标（平均绝对误差）。数据集以parquet文件组织，提供同步后的肌电、惯性测量单元、视频帧、RGB-D、MANO参数及校准元数据，并附带预处理脚本和基准模型训练代码，便于研究者快速上手进行复现与扩展。

背景与挑战

背景概述

EgoEMG数据集由清华大学自动化系Jianjiang Feng和Jie Zhou教授团队于2026年创建，旨在解决多模态手部姿态估计中现有资源缺乏同步化双模态数据的问题。表面肌电图与自我中心视觉在手部传感中具有天然互补性：前者能在遮挡和光照不足条件下捕捉精细手指关节运动，后者则提供全局手部构型。然而，此前没有任何数据集能够同步提供这两种模态数据。EgoEMG填补了这一空白，通过同步采集双侧腕带EMG（16通道，2kHz采样率）、IMU、自我中心广角RGB视频、外部RGB-D视频以及基于光学动捕的MANO参数与腕关节角度标注，覆盖41名参与者执行60种手势（含30种单手手势和30种双手手势），总记录时长超过10小时。该数据集为跨模态手部姿态估计研究奠定了坚实基准，推动了EMG与视觉融合方法的发展。

当前挑战

EgoEMG面临的挑战主要涵盖两个方面。在领域问题层面，手部姿态估计需克服EMG信号固有的跨用户变异性——测试误差在未见参与者上显著高于未见手势，表明跨用户泛化仍是核心瓶颈；同时，纯视觉方法受限于视线遮挡、运动模糊及自遮挡，在操作场景中性能大幅退化。尽管EMG能提供肌肉激活线索，但单一模态均难以独立应对复杂真实场景。在构建过程中，数据同步面临严峻工程挑战：需将2kHz高频EMG信号、120Hz动捕数据与60fps视频流通过主机时间戳软同步及线性插值对齐至统一时间线。此外，学习型标记转MANO管线需在11个公开数据集（超1.95亿帧）上训练，通过复杂的图变换器架构和八种数据增强策略（包括骨骼长度扰动、标记丢失、高斯噪声等）以保证鲁棒性，最终将无效帧率从12.7%降至3.6%，但模型复杂度与训练计算开销显著。

常用场景

经典使用场景

EgoEMG作为首个同步采集双侧腕带肌电信号与第一人称视觉数据的多模态手部姿态估计数据集，为融合肌电与视觉信息的研究提供了前所未有的平台。其经典使用场景集中在利用双侧16通道肌电信号（每腕8通道，2kHz采样）与头戴式广角RGB视频的时空对齐特性，实现对手部22自由度关节角度（20个手指关节角与2个腕部关节角）的连续回归。数据集覆盖41名受试者执行60类手势（30类单手与30类双手交互），累计超过10小时记录，支持跨手势、跨用户及联合泛化三种评价协议，为肌电解码、视觉估计及多模态融合任务提供了标准化的实验基准。

衍生相关工作

EgoEMG的发布已衍生了多个重要研究方向。在基线方法层面，它催生了融合残差架构（Residual Fusion），其中视觉分支提供初始姿态预测，肌电分支学习残差校正，该设计可无缝适配ResNet及ViT等通用视觉骨干，验证了多模态信息的最优组合策略。后续工作延续了EMGFormer系列（TDS特征提取器与Transformer解码器的结合），其轻量版本（3.5M参数）在跨手势划分下达到12.8度MAE，为边缘端部署提供了高效参考。在基准扩展方面，该数据集支持研究者探索基于预训练策略的跨域迁移，推动了如掩码自编码与矢量量化等前沿技术在肌电话动表征中的创新应用，同时为时序视频模型、多视图RGB-D模型等衍生任务奠定了数据基础。

数据集最近研究