emg2qwerty

github2025-08-19 更新2025-08-22 收录

下载链接：

https://github.com/shank959/EMG-to-QWERTY-Keystroke-Decoding-ML-Model

下载链接

链接失效反馈

官方服务：

资源简介：

一个表面肌电图(sEMG)记录数据集，包含在QWERTY键盘上打字时的肌肉活动数据，带有真实标签、基准测试和基线模型。数据集包含1,135个会话文件，涵盖108名用户和346小时的记录，每个会话文件采用HDF5格式，包括左右sEMG信号数据、提示文本、键盘记录真实标签及其对应的时间戳

This is a surface electromyography (sEMG) recording dataset containing muscle activity data collected while typing on a QWERTY keyboard, along with ground truth labels, benchmark tests and baseline models. The dataset comprises 1,135 session files covering 108 users and 346 hours of recordings. Each session file is stored in HDF5 format, and includes left and right sEMG signal data, prompt texts, ground truth keyboard logging labels and their corresponding timestamps.

创建时间：

2025-08-18

原始信息汇总

数据集概述

数据集基本信息

名称：emg2qwerty
类型：表面肌电图（sEMG）记录数据集
内容：在QWERTY键盘上触摸打字时的sEMG记录，包含真实标签、基准和基线
文件总数：1,136个文件
会话文件：1,135个会话文件
用户数量：108名用户
记录时长：346小时

数据格式

会话文件格式：HDF5格式
包含数据：
- 左右sEMG信号数据
- 提示文本
- 键盘记录器真实标签
- 对应的时间戳
元数据文件：metadata.csv

数据处理工具

程序化接口：emg2qwerty.data.EMGSessionData提供HDF5会话文件的只读接口
数据集统计：可通过scripts/print_dataset_stats.py生成
数据分割：可通过scripts/generate_splits.py重新生成
格式转换：支持转换为EEG BIDS格式（通过scripts/convert_to_bids.py）

模型训练

通用用户模型：支持多GPU训练
个性化用户模型：支持单用户训练

测试方法

贪婪解码：使用ctc_greedy解码器
束搜索解码：使用6-gram字符级语言模型的ctc_beam解码器

许可信息

许可证：CC-BY-NC-4.0

引用信息

论文标题：emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography
作者：Viswanath Sivakumar等
年份：2024
arXiv编号：2410.20081
arXiv链接：https://arxiv.org/abs/2410.20081

搜集汇总

数据集介绍

构建方式

在表面肌电信号研究领域，emg2qwerty数据集通过系统化采集108名受试者在QWERTY键盘打字过程中的肌电活动构建而成。数据采集过程采用双通道表面电极同步记录左右前臂的肌电信号，并配合高精度键位记录仪获取真实输入文本作为地面真值。总计346小时的录制时长被编码为1135个标准化HDF5会话文件，每个文件均包含时间对齐的肌电信号序列、提示文本及对应键位标签，辅以CSV格式的元数据文件实现全流程可追溯管理。

特点

该数据集的核心特征体现在其多模态同步采集架构与大规模用户覆盖维度。肌电信号以2000Hz采样率捕获，确保了神经肌肉活动的高保真度；而精准到毫秒级的时间戳对齐机制，为信号与键盘事件的关联分析提供了技术基础。数据集特别设计了通用模型与个性化模型的双重评估框架，通过预设的训练-验证-测试分割方案支持跨用户泛化能力研究和用户自适应建模。此外，其兼容BIDS脑电数据标准的特性极大便利了多模态神经生理学研究的整合应用。

使用方法

研究者可通过PyTorch数据集接口emg2qwerty.data.EMGSessionData直接访问HDF5格式的肌电会话数据。标准使用流程始于环境配置与数据解压，通过执行scripts/generate_splits.py脚本可复现论文中的数据集划分方案。模型训练支持通用用户模式和单用户个性化模式，分别通过配置user=generic或user=single_user参数启动分布式或单设备训练。推理阶段提供贪婪解码与基于6元文法语言模型的束搜索解码两种策略，通过decoder=ctc_greedy或decoder=ctc_beam参数切换，最终输出字符级预测结果与性能指标。

背景与挑战

背景概述

表面肌电信号在人体运动意图识别领域具有重要研究价值，emg2qwerty数据集由Meta公司研究团队于2024年正式发布，主要研究人员包括Viswanath Sivakumar等学者。该数据集专注于通过sEMG信号解码QWERTY键盘打字行为，包含108名用户的1,135个会话记录，总时长达到346小时，为手势识别与人机交互领域提供了大规模高质量基准数据。其创新性在于建立了肌电信号与键盘输入之间的映射关系，为残障人士辅助技术提供了新的研究范式。

当前挑战

该数据集致力于解决表面肌电信号解码的领域挑战，包括个体生理差异导致的信号变异、肌肉协同激活效应带来的特征混淆，以及连续打字动作的时序建模难题。在构建过程中面临多设备信号同步、大规模数据标注验证，以及隐私保护等工程技术挑战。数据采集需要协调108名参与者完成标准化打字任务，同时确保肌电信号与键盘记录的时间戳精确对齐，这对实验设计和数据处理流程提出了极高要求。

常用场景

经典使用场景

在肌电信号解码研究领域，emg2qwerty数据集为表面肌电信号与键盘输入映射关系建立了标准化评估框架。该数据集最经典的应用场景在于训练端到端的神经网络模型，通过采集用户打字时的手臂肌电信号，构建从原始生物电信号到QWERTY键盘字符序列的跨模态转换系统。研究者可利用其提供的108名用户346小时同步记录数据，开发基于CTC损失函数的序列到序列模型，实现肌电信号到文本的自动转译。

解决学术问题

该数据集有效解决了肌电接口领域长期存在的标准化数据缺失问题，为表面肌电信号解码提供了大规模高质量基准。其重要意义在于建立了可重复评估的实验范式，使得研究者能够系统性地探究个性化适配、跨用户泛化、信号噪声鲁棒性等核心科学问题。通过提供精确的键位记录与肌电信号时序对齐，该数据集推动了基于深度学习的肌电解码模型在准确率和实时性方面的突破性进展。

衍生相关工作

该数据集已衍生出多个具有影响力的研究方向，包括基于元学习的跨用户自适应模型、结合语言模型的肌电信号后处理技术、以及轻量化实时解码系统开发。相关经典工作探索了Transformer架构在肌电解码中的适用性，开发了基于注意力机制的多模态融合方法，并建立了端到端的个性化微调范式。这些研究不仅推动了肌电接口技术的性能边界，更为生物信号处理领域提供了可迁移的深度学习框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集