沙特阿拉伯手语语料库

Name: 沙特阿拉伯手语语料库
Creator: 沙特阿拉伯王国HUMAIN,捷克共和国西波西米亚大学信息社会网络与新技术系,沙特数据与人工智能管理局
Published: 2025-10-13 17:18:34
License: 暂无描述

arXiv2025-10-13 更新2025-10-15 收录

下载链接：

https://github.com/signforall/t5-training-scripts

下载链接

链接失效反馈

官方服务：

资源简介：

沙特阿拉伯手语语料库是一个包含2000个独特句子的数据集，这些句子代表聋人社区中的常见表达，涵盖日常交流和专业领域。数据集包括来自不同领域的句子，如银行、法律、教育、医疗保健、紧急服务和交通。数据集的创建是为了促进沙特阿拉伯手语翻译的研究和开发，以解决聋人社区与公共和私人机构之间的沟通问题。

The Saudi Arabian Sign Language (SASL) Corpus is a dataset containing 2,000 unique sentences that represent common expressions within the deaf community, covering both daily communication and professional domains. The dataset includes sentences from various fields such as banking, law, education, healthcare, emergency services, and transportation. It was created to facilitate research and development of Saudi Arabian Sign Language translation, aiming to address communication barriers between the deaf community and both public and private institutions.

提供机构：

沙特阿拉伯王国HUMAIN,捷克共和国西波西米亚大学信息社会网络与新技术系,沙特数据与人工智能管理局

创建时间：

2025-10-13

原始信息汇总

沙特手语翻译T5训练脚本数据集概述

数据集基本信息

数据集名称: 沙特手语翻译T5训练脚本
主要用途: 训练沙特手语翻译模型，使用T5及其变体
编程语言: Python 3.10
深度学习框架: PyTorch 2.2

数据预处理

姿态估计方法: 使用Pose Estimation仓库将视频帧转换为向量表示
姿态估计仓库地址: https://github.com/JSALT2024/PoseEstimation

训练配置

基础训练步骤

编辑configs文件夹中的config_train.yaml文件
指定训练集和验证集的位置
运行训练命令：python train.py --config_path configs/config_train.yaml

微调选项

YouTubeASL检查点下载地址: https://drive.google.com/drive/folders/1TM1BrA6v4bJTd0rzSHFUp0yH-FmXO9nK?usp=drive_link
微调时需设置resume为true并指定检查点路径

超参数设置

模型特定超参数

架构	批大小	梯度累积大小	基础权重种子	YouTubeASL种子
T5	16	1	99	3037
T5v1.0	16	1	0	544
mT5（英语）	4	4	3037	42
mT5（阿拉伯语）	4	4	99	3037

统一超参数

超参数	值
学习率	0.001
权重衰减	0.01
FP16	False
训练轮数	100

评估方法

在config_eval.yaml文件中指定检查点位置
指定生成结果的路径
运行评估命令：python eval.py --config_path configs/config_eval.yaml

无标签测试

在评估配置文件中将test_labels_dataset_path留空即可对无标签测试集生成结果

搜集汇总

数据集介绍

构建方式

在沙特阿拉伯手语语料库的构建过程中，研究团队通过精心设计的录制流程采集了涵盖日常交流及专业领域（如医疗、金融等）的2000个独特句子。十八名手语者参与录制，其中女性手语者面部被有意遮挡以反映当地文化特征。数据预处理采用YOLOv8和MediaPipe工具提取身体、面部及手部的104个关键点，并通过归一化与空间裁剪技术消除背景干扰，确保数据质量与一致性。

特点

该语料库的突出特点在于其多维度的测试划分机制，包含三种差异化场景：测试一评估模型对全新句子与手语者的泛化能力；测试二聚焦已知手语者执行新句子的适应性；测试三则考察模型对已学句子由陌生手语者演绎的识别鲁棒性。此外，数据集天然包含面部遮挡与性别不平衡等现实挑战，为研究低资源手语翻译提供了贴近实际的应用场景。

使用方法

使用本数据集时，建议采用两阶段训练策略：首先利用大规模美国手语数据集进行预训练以获取通用手势特征，再通过微调适配沙特手语的独有语法结构与文化特征。模型输入为经过预处理的208维关键点序列，可结合T5系列架构实现端到端翻译。评估阶段需严格遵循三个测试协议，综合BLEU、BLEURT等指标多维度验证模型在跨语言迁移与泛化性能上的表现。

背景与挑战

背景概述

沙特阿拉伯手语语料库由沙特阿拉伯人类智能研究中心与捷克西波希米亚大学于2025年联合构建，聚焦于解决低资源手语机器翻译的核心难题。该语料库收录了涵盖医疗、金融、教育等六大领域的2000个日常语句，通过18名手语者的多模态数据采集，首次系统呈现了沙特手语独特的语法结构与非手动标记特征。作为阿拉伯语系中首个具备三层次测试协议的手语数据集，其创新性的数据划分机制为跨语言迁移学习研究提供了重要基准，显著推动了中东地区无障碍通信技术的发展。

当前挑战

该数据集面临领域问题与构建过程的双重挑战：在领域层面，沙特手语特有的面部遮挡现象导致非手动标记特征提取困难，语法结构异于标准阿拉伯手语加剧了语义对齐复杂度；构建过程中，性别比例失衡使得模型对女性手语者适应性不足，多领域数据分布不均衡影响泛化性能，而隐私保护要求与高精度标注成本进一步限制了数据规模扩展。这些挑战共同制约着沙特手语翻译模型在真实场景中的鲁棒性表现。

常用场景

经典使用场景

在阿拉伯语手语研究领域，该语料库被广泛用于评估跨语言迁移学习模型的性能。通过设计三种不同的测试协议，研究人员能够系统检验模型对未见过的句子和手语者的泛化能力。特别是在处理沙特手语特有的面部遮挡和语法结构时，该数据集为探索姿态特征提取与文本生成间的映射关系提供了标准化基准。

解决学术问题

该数据集有效缓解了低资源手语翻译领域的数据稀缺问题，为研究跨语言迁移学习机制提供了实证基础。通过证明美国手语预训练对沙特手语翻译的显著提升，揭示了不同手语系统间存在的语言学共性。其多维度测试协议设计，为评估模型对文化特异性手势和语法变体的适应能力建立了新范式。

衍生相关工作

基于该数据集的关键点提取方法，后续研究衍生出多模态融合的翻译架构。相关工作扩展了MediaPipe姿态估计在遮挡场景下的鲁棒性优化，并催生了针对阿拉伯语语序特性的序列建模改进。在跨语言迁移方向，该数据集启发了将YouTubeASL预训练范式适配于其他低资源手语的研究路线，推动了全球手语资源均衡化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集