SIGMA-ASL

Name: SIGMA-ASL
Creator: 山东大学·软件学院; 山东大学·人工智能学院; 山东大学·外国语学院; 华威大学
Published: 2026-05-07 22:33:14
License: 暂无描述

arXiv2026-05-07 更新2026-05-09 收录

下载链接：

https://github.com/happy2sumture-cloud/SIGMA-ASL

下载链接

链接失效反馈

官方服务：

资源简介：

SIGMA-ASL是由山东大学联合华威大学构建的大规模多模态手语识别数据集，集成Kinect RGB-D相机、毫米波雷达和腕戴式IMU传感器，捕捉视觉、无线电反射与运动学多维数据。该数据集包含20名参与者执行的160个常用美式手语词汇，共计93,545条时间同步的多模态片段，通过毫秒级对齐框架确保跨模态一致性。数据在受控工作室环境中采集，配备标准化预处理流程，为开发抗光照干扰、保护隐私的鲁棒手语识别系统提供重要资源，推动无障碍人机交互领域研究。

提供机构：

山东大学·软件学院; 山东大学·人工智能学院; 山东大学·外国语学院; 华威大学

创建时间：

2026-05-07

原始信息汇总

SIGMA-ASL 数据集概述

数据集简介

SIGMA-ASL 是一个面向美国手语（ASL）识别的大规模多模态数据集，旨在通过融合多种传感器数据，提升手语识别的鲁棒性与隐私保护能力。

数据集规模

参与者：20 名
手语词汇：160 个常见 ASL 手语词汇
多模态片段总数：93,545 个时间同步的词级片段

传感器模态

数据集集成了四种互补的传感模态：

Azure Kinect RGB-D 相机：提供视觉（RGB）和深度（Depth）信息
毫米波雷达（mmWave Radar）：提供无线电反射信息
两个腕戴式惯性测量单元（IMUs）：提供运动学信息

关键特性

多模态融合：结合视觉、无线电反射和运动学数据，支持跨模态手语识别
时间同步：达到毫秒级对齐，确保传感器融合与跨模态学习的高保真度
标准化预处理：提供预处理流程和基准测试协议，支持用户依赖与用户无关两种评估设置
隐私保护：通过引入非视觉模态（毫米波雷达与IMU），增强系统鲁棒性并保护隐私

研究引用

该数据集及其相关框架描述于论文："SIGMA-ASL: A Large-Scale Multimodal Dataset for American Sign Language Recognition"（已投稿至 UbiComp 2026）。

数据获取

数据集仅供学术研究使用。预处理后的数据可通过以下链接获取：

链接：https://pan.baidu.com/s/1sHR5nwolE0cwNK_WUojURw
提取码：ydmz
该链接包含三个压缩的数据包及一个名为 rgbDepthDataset_s1_part 的文件夹。如需合并文件夹内的分片数据文件，请执行以下命令： bash cat rgbDepthDataset_s1_part_* > rgbDepthDataset_s1_part.tar.gz

数据结构

原始数据组织

├── DataImu │ ├── user_1 │ │ ├── exp_1 → data_duration_40.csv │ │ ├── exp_2 → data_duration_30.csv │ │ ├── ... │ │ └── exp_160 → data_duration_30.csv │ ├── user_2 → ... │ └── user_20 ├── kinectData │ ├── user_1 │ │ ├── exp_1 │ │ │ ├── camera_intrinsics.json │ │ │ ├── color_to_depth_transform.json │ │ │ ├── depth_to_color_transform.json │ │ │ ├── first_frame_time.txt │ │ │ └── rgbd │ │ │ ├── color → xxx_color.png │ │ │ └── depth → xxx_depth.png │ │ ├── ... │ │ └── exp_160 │ ├── ... │ └── user_20 ├── RadarData │ ├── user_1 │ │ ├── 1_1 → adc_data_0.bin, adc_data_1.bin, LogFile.txt, Raw_LogFile.csv │ │ ├── 1_2 → ... │ │ └── 1_160 │ ├── user_2 → ... │ └── user_20 └── RadarTime ├── user_1 │ ├── exp_1 → first_packet_time.txt │ ├── ... │ └── exp_160 ├── user_2 → ... └── user_20

预处理后数据组织

user_x/exp_x/clip_x/xxx.npz

搜集汇总

数据集介绍

构建方式

SIGMA-ASL数据集由山东大学研究团队构建，旨在克服现有视觉手语数据集对光照和遮挡敏感、缺乏跨模态多样性的局限。数据采集在受控的室内环境中进行，共招募20名参与者执行160个常用美国手语（ASL）词汇。系统集成Azure Kinect RGB-D相机、毫米波雷达和两个腕戴式惯性测量单元（IMU），所有设备连接至单一工作站以实现毫秒级同步。每个词汇在30秒窗口内被重复执行至少12次，并通过基于MediaPipe的自动化分割算法从RGB帧中检测手部运动边界，最终生成93,545个时间对齐的多模态词级片段。

特点

该数据集的显著特点在于其多模态融合的全面性与同步精度。它首次在同一框架内整合了RGB-D视觉、毫米波雷达反射信号和IMU运动学数据，覆盖了视觉、无线电和运动传感三种互补模态。mmWave雷达提供光照不变和隐私保护的细粒度运动信息，IMU捕获精准的腕部与手部动力学，而RGB-D则保留丰富的语义与空间结构。数据集包含160个词汇类别，涵盖多种语义域和词性，每类样本数平衡（CV=0.086），且支持用户依赖与用户无关两种评估协议，为跨被试泛化与跨会话鲁棒性研究提供了坚实基准。

使用方法

SIGMA-ASL支持单模态与多模态的孤立手语识别研究。使用者可直接加载经预处理的对齐RGB帧、深度图、mmWave距离-多普勒图谱（RDM）以及IMU频谱图进行模型训练。数据集提供了标准化预处理流程和基准评估框架，包括用户依赖与用户无关两种测试协议。研究者可采用I3D、SlowFast等3D卷积网络或Transformer架构进行单模态实验，也可通过提供的logit级融合策略探索RGB、深度、雷达与IMU间的互补性。数据集及配套代码已在GitHub公开，便于复现与扩展。

背景与挑战

背景概述

手语作为听力障碍群体日常沟通的核心媒介，其自动识别技术对于构建包容性人机交互具有重要意义。然而，现有手语识别研究长期受限于以视觉为中心的数据集，这类数据对光照、遮挡敏感，且存在隐私泄露风险。为突破这一瓶颈，山东大学软件学院的研究团队于近年创建了SIGMA-ASL数据集，该数据集由肖晓芳、李广超、赵广荣等学者联合开发，整合了Azure Kinect RGB-D相机、毫米波雷达及腕戴式惯性测量单元，构建了包含20名参与者、160个常用美国手语词汇、共计93545条多模态词级片段的超大规模同步资源。作为首个公开可用的、集视觉、雷达与惯性信号于一体的高精度手语数据集，SIGMA-ASL为鲁棒、隐私保护及普适的手语识别研究奠定了坚实基础，推动了跨模态感知领域的发展。

当前挑战

SIGMA-ASL数据集所面临的挑战体现在两个层面。在领域问题层面，现有视觉主导的手语识别在光照不足、背景杂乱或自遮挡场景下精度骤降，且视频数据不可避免暴露人脸等生物特征，引发伦理争议；同时，传统单模态方法难以捕捉手语中精细的手指运动与复杂的时空动态，亟需融合雷达与惯性信号以提升识别鲁棒性。在数据集构建层面，多模态数据的采集面临严苛的硬件校准与毫秒级时间同步难题，20名新手手语者的参与虽保证了数据规模，却限制了模型对熟练手语者多样表达方式的泛化能力；此外，163小时的录制过程中需剔除因同步失败导致的异常样本，且基于MediaPipe的自动化分割在运动模糊或遮挡时仍需人工干预，凸显了构建大规模高质量多模态手语资源的复杂性与代价。

常用场景

经典使用场景

在手语识别研究领域，SIGMA-ASL数据集为多模态孤立词识别任务提供了理想的研究平台。其核心价值在于整合了RGB-D视觉、毫米波雷达与惯性测量单元三种异构传感模态，并实现了毫秒级的时间同步对齐。研究者可借此探索跨模态表征学习与传感器融合策略，系统评估不同模态在手语词汇判别中的独特贡献与局限性，尤其适用于分析视觉与非视觉模态间互补性的量化表征。

解决学术问题

该数据集有效填补了现有手语识别研究中非视觉模态大尺度基准缺失的学术空白。它突破了传统纯视觉方法受制于光照、遮挡与隐私的瓶颈，为构建鲁棒性与隐私保护兼顾的识别模型提供了数据基础。通过统一的传感框架与规范化预处理流程，SIGMA-ASL支撑了用户依赖与用户无关两种评估协议，推动了跨被试泛化能力、时序动态建模及多模态负迁移效应等关键命题的系统性研究。

衍生相关工作

该数据集衍生出丰富的后续研究方向，典型工作包括跨模态生成与数据增强机制的探索。研究者可借助其精准同步的多模态记录，学习从视觉域到雷达域的映射函数，实现从视频输入合成毫米波频谱图，进而扩充非视觉训练数据规模。这一范式为小样本乃至零样本学习场景下的模型泛化开辟了新径，同时催生了诸如基于跨模态子空间对齐的融合架构、不确定性感知门控网络等创新性方法论工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集