沙特阿拉伯手语语料库
收藏arXiv2025-10-13 更新2025-10-15 收录
下载链接:
https://github.com/signforall/t5-training-scripts
下载链接
链接失效反馈官方服务:
资源简介:
沙特阿拉伯手语语料库是一个包含2000个独特句子的数据集,这些句子代表聋人社区中的常见表达,涵盖日常交流和专业领域。数据集包括来自不同领域的句子,如银行、法律、教育、医疗保健、紧急服务和交通。数据集的创建是为了促进沙特阿拉伯手语翻译的研究和开发,以解决聋人社区与公共和私人机构之间的沟通问题。
The Saudi Arabian Sign Language (SASL) Corpus is a dataset containing 2,000 unique sentences that represent common expressions within the deaf community, covering both daily communication and professional domains. The dataset includes sentences from various fields such as banking, law, education, healthcare, emergency services, and transportation. It was created to facilitate research and development of Saudi Arabian Sign Language translation, aiming to address communication barriers between the deaf community and both public and private institutions.
提供机构:
沙特阿拉伯王国HUMAIN,捷克共和国西波西米亚大学信息社会网络与新技术系,沙特数据与人工智能管理局
创建时间:
2025-10-13
原始信息汇总
沙特手语翻译T5训练脚本数据集概述
数据集基本信息
- 数据集名称: 沙特手语翻译T5训练脚本
- 主要用途: 训练沙特手语翻译模型,使用T5及其变体
- 编程语言: Python 3.10
- 深度学习框架: PyTorch 2.2
数据预处理
- 姿态估计方法: 使用Pose Estimation仓库将视频帧转换为向量表示
- 姿态估计仓库地址: https://github.com/JSALT2024/PoseEstimation
训练配置
基础训练步骤
- 编辑configs文件夹中的config_train.yaml文件
- 指定训练集和验证集的位置
- 运行训练命令:
python train.py --config_path configs/config_train.yaml
微调选项
- YouTubeASL检查点下载地址: https://drive.google.com/drive/folders/1TM1BrA6v4bJTd0rzSHFUp0yH-FmXO9nK?usp=drive_link
- 微调时需设置resume为true并指定检查点路径
超参数设置
模型特定超参数
| 架构 | 批大小 | 梯度累积大小 | 基础权重种子 | YouTubeASL种子 |
|---|---|---|---|---|
| T5 | 16 | 1 | 99 | 3037 |
| T5v1.0 | 16 | 1 | 0 | 544 |
| mT5(英语) | 4 | 4 | 3037 | 42 |
| mT5(阿拉伯语) | 4 | 4 | 99 | 3037 |
统一超参数
| 超参数 | 值 |
|---|---|
| 学习率 | 0.001 |
| 权重衰减 | 0.01 |
| FP16 | False |
| 训练轮数 | 100 |
评估方法
- 在config_eval.yaml文件中指定检查点位置
- 指定生成结果的路径
- 运行评估命令:
python eval.py --config_path configs/config_eval.yaml
无标签测试
- 在评估配置文件中将test_labels_dataset_path留空即可对无标签测试集生成结果
搜集汇总
数据集介绍

构建方式
在沙特阿拉伯手语语料库的构建过程中,研究团队通过精心设计的录制流程采集了涵盖日常交流及专业领域(如医疗、金融等)的2000个独特句子。十八名手语者参与录制,其中女性手语者面部被有意遮挡以反映当地文化特征。数据预处理采用YOLOv8和MediaPipe工具提取身体、面部及手部的104个关键点,并通过归一化与空间裁剪技术消除背景干扰,确保数据质量与一致性。
特点
该语料库的突出特点在于其多维度的测试划分机制,包含三种差异化场景:测试一评估模型对全新句子与手语者的泛化能力;测试二聚焦已知手语者执行新句子的适应性;测试三则考察模型对已学句子由陌生手语者演绎的识别鲁棒性。此外,数据集天然包含面部遮挡与性别不平衡等现实挑战,为研究低资源手语翻译提供了贴近实际的应用场景。
使用方法
使用本数据集时,建议采用两阶段训练策略:首先利用大规模美国手语数据集进行预训练以获取通用手势特征,再通过微调适配沙特手语的独有语法结构与文化特征。模型输入为经过预处理的208维关键点序列,可结合T5系列架构实现端到端翻译。评估阶段需严格遵循三个测试协议,综合BLEU、BLEURT等指标多维度验证模型在跨语言迁移与泛化性能上的表现。
背景与挑战
背景概述
沙特阿拉伯手语语料库由沙特阿拉伯人类智能研究中心与捷克西波希米亚大学于2025年联合构建,聚焦于解决低资源手语机器翻译的核心难题。该语料库收录了涵盖医疗、金融、教育等六大领域的2000个日常语句,通过18名手语者的多模态数据采集,首次系统呈现了沙特手语独特的语法结构与非手动标记特征。作为阿拉伯语系中首个具备三层次测试协议的手语数据集,其创新性的数据划分机制为跨语言迁移学习研究提供了重要基准,显著推动了中东地区无障碍通信技术的发展。
当前挑战
该数据集面临领域问题与构建过程的双重挑战:在领域层面,沙特手语特有的面部遮挡现象导致非手动标记特征提取困难,语法结构异于标准阿拉伯手语加剧了语义对齐复杂度;构建过程中,性别比例失衡使得模型对女性手语者适应性不足,多领域数据分布不均衡影响泛化性能,而隐私保护要求与高精度标注成本进一步限制了数据规模扩展。这些挑战共同制约着沙特手语翻译模型在真实场景中的鲁棒性表现。
常用场景
经典使用场景
在阿拉伯语手语研究领域,该语料库被广泛用于评估跨语言迁移学习模型的性能。通过设计三种不同的测试协议,研究人员能够系统检验模型对未见过的句子和手语者的泛化能力。特别是在处理沙特手语特有的面部遮挡和语法结构时,该数据集为探索姿态特征提取与文本生成间的映射关系提供了标准化基准。
解决学术问题
该数据集有效缓解了低资源手语翻译领域的数据稀缺问题,为研究跨语言迁移学习机制提供了实证基础。通过证明美国手语预训练对沙特手语翻译的显著提升,揭示了不同手语系统间存在的语言学共性。其多维度测试协议设计,为评估模型对文化特异性手势和语法变体的适应能力建立了新范式。
衍生相关工作
基于该数据集的关键点提取方法,后续研究衍生出多模态融合的翻译架构。相关工作扩展了MediaPipe姿态估计在遮挡场景下的鲁棒性优化,并催生了针对阿拉伯语语序特性的序列建模改进。在跨语言迁移方向,该数据集启发了将YouTubeASL预训练范式适配于其他低资源手语的研究路线,推动了全球手语资源均衡化发展。
以上内容由遇见数据集搜集并总结生成



