SIGMA-ASL
收藏SIGMA-ASL 数据集概述
数据集简介
SIGMA-ASL 是一个面向美国手语(ASL)识别的大规模多模态数据集,旨在通过融合多种传感器数据,提升手语识别的鲁棒性与隐私保护能力。
数据集规模
- 参与者:20 名
- 手语词汇:160 个常见 ASL 手语词汇
- 多模态片段总数:93,545 个时间同步的词级片段
传感器模态
数据集集成了四种互补的传感模态:
- Azure Kinect RGB-D 相机:提供视觉(RGB)和深度(Depth)信息
- 毫米波雷达(mmWave Radar):提供无线电反射信息
- 两个腕戴式惯性测量单元(IMUs):提供运动学信息
关键特性
- 多模态融合:结合视觉、无线电反射和运动学数据,支持跨模态手语识别
- 时间同步:达到毫秒级对齐,确保传感器融合与跨模态学习的高保真度
- 标准化预处理:提供预处理流程和基准测试协议,支持用户依赖与用户无关两种评估设置
- 隐私保护:通过引入非视觉模态(毫米波雷达与IMU),增强系统鲁棒性并保护隐私
研究引用
该数据集及其相关框架描述于论文:"SIGMA-ASL: A Large-Scale Multimodal Dataset for American Sign Language Recognition"(已投稿至 UbiComp 2026)。
数据获取
数据集仅供学术研究使用。预处理后的数据可通过以下链接获取:
- 链接:https://pan.baidu.com/s/1sHR5nwolE0cwNK_WUojURw
- 提取码:ydmz
- 该链接包含三个压缩的数据包及一个名为 rgbDepthDataset_s1_part 的文件夹。如需合并文件夹内的分片数据文件,请执行以下命令: bash cat rgbDepthDataset_s1_part_* > rgbDepthDataset_s1_part.tar.gz
数据结构
原始数据组织
├── DataImu │ ├── user_1 │ │ ├── exp_1 → data_duration_40.csv │ │ ├── exp_2 → data_duration_30.csv │ │ ├── ... │ │ └── exp_160 → data_duration_30.csv │ ├── user_2 → ... │ └── user_20 ├── kinectData │ ├── user_1 │ │ ├── exp_1 │ │ │ ├── camera_intrinsics.json │ │ │ ├── color_to_depth_transform.json │ │ │ ├── depth_to_color_transform.json │ │ │ ├── first_frame_time.txt │ │ │ └── rgbd │ │ │ ├── color → xxx_color.png │ │ │ └── depth → xxx_depth.png │ │ ├── ... │ │ └── exp_160 │ ├── ... │ └── user_20 ├── RadarData │ ├── user_1 │ │ ├── 1_1 → adc_data_0.bin, adc_data_1.bin, LogFile.txt, Raw_LogFile.csv │ │ ├── 1_2 → ... │ │ └── 1_160 │ ├── user_2 → ... │ └── user_20 └── RadarTime ├── user_1 │ ├── exp_1 → first_packet_time.txt │ ├── ... │ └── exp_160 ├── user_2 → ... └── user_20
预处理后数据组织
user_x/exp_x/clip_x/xxx.npz




