MedASL, RWTH-PHOENIX-Weather-2014T (PHOENIX14T), ISL-CSLTR

github2026-03-04 更新2026-03-10 收录

下载链接：

https://github.com/INDUCE-Lab/ADAT-Adaptive-Transformer-for-Sign-Language-Translation

下载链接

链接失效反馈

官方服务：

资源简介：

MedASL是一个新创建的医疗领域数据集，代表了患者和医疗专业人员之间的临床对话，使用美国手语（ASL），旨在反映医疗保健中的真实辅助场景。PHOENIX14T是一个德国手语（DGS）数据集，涉及天气领域，是一个大规模、语言多样化的多签名者基准数据集。ISL-CSLTR是一个印度手语（ISL）数据集，涉及一般领域，是一个资源有限、多样性受限的多签名者基准数据集。

MedASL is a newly created medical domain dataset that represents clinical dialogues between patients and medical professionals in American Sign Language (ASL), aiming to reflect real assistive scenarios in healthcare. PHOENIX14T is a German Sign Language (DGS) dataset focused on the weather domain, which is a large-scale, linguistically diverse multi-signer benchmark dataset. ISL-CSLTR is an Indian Sign Language (ISL) dataset covering general domains, and it is a resource-limited, diversity-limited multi-signer benchmark dataset.

创建时间：

2026-02-07

原始信息汇总

ADAT 数据集概述

数据集基本信息

关联论文：ADAT Novel Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation
作者：Nada Shahin, Leila Ismail
发表期刊：Scientific Reports
发表年份：2026
论文DOI：https://doi.org/10.1038/s41598-026-36293-9

包含的数据集

RWTH-PHOENIX-Weather-2014T (PHOENIX14T)

语言：德国手语
领域：天气
特点：大规模、语言多样性丰富的多签名者基准数据集

ISL-CSLTR

语言：印度手语
领域：通用领域
特点：低资源、多样性有限的多签名者基准

MedASL（本研究提出的新数据集）

语言：美国手语
领域：医疗与健康护理对话
特点：旨在反映医疗保健中真实世界的辅助场景，代表患者与医疗专业人员之间的临床对话

数据预处理流程

关键点提取：使用 MediaPipe 提取手部、面部、姿势和虹膜关键点
数据规范化：包括归一化、重新缩放和填充
序列分割：采用滑动窗口分割进行推理
文本处理：对文本输出进行标记化和子词建模

数据集用途与评估

核心任务：手语机器翻译
评估指标：
- 翻译质量：BLEU 分数
- 训练时间：秒
- 计算复杂度：每秒浮点运算次数

许可信息

许可证：知识共享署名许可协议 4.0

搜集汇总

数据集介绍

构建方式

在医学领域手语翻译研究中，MedASL数据集通过模拟真实临床对话场景构建而成，其数据采集聚焦于医患互动情境下的美国手语表达。该数据集采用MediaPipe工具提取手部、面部、姿态及虹膜等多模态关键点，经过归一化、重缩放与填充等预处理步骤，形成结构化时间序列数据。数据标注遵循医疗对话的语义完整性，确保手势序列与对应口语文本的精确对齐，为医疗辅助场景下的手语翻译提供了专门化的训练资源。

特点

MedASL数据集作为医疗领域手语翻译的首创资源，其核心特点体现在领域专属性与场景真实性上。数据集涵盖医患临床对话的多样手势表达，包括症状描述、治疗建议等医疗特定语境，弥补了通用手语数据在专业术语与交互模式上的不足。数据呈现多模态特征，融合了人体关键点的时间序列与文本标签，支持对精细手势运动与长程时序依赖的联合建模。与PHOENIX14T的气象领域数据和ISL-CSLTR的低资源通用数据相比，该数据集为医疗人机交互研究提供了不可替代的基准。

使用方法

该数据集适用于端到端手语翻译模型的训练与评估，用户可通过替换数据加载模块中的合成数据，将预处理后的视频张量、手势索引与文本索引输入自适应Transformer架构。训练流程支持基于配置文件的参数化运行，包含卷积特征提取、对数稀疏自注意力与自适应门控机制的编码器，能够有效捕捉医疗手势的时空动态特性。推理阶段采用滑动窗口分割策略处理连续视频流，输出对应的口语文本序列，为医疗场景下的实时手语翻译系统开发提供完整技术框架。

背景与挑战

背景概述

在计算语言学和辅助技术交叉领域，手语机器翻译（SLMT）研究致力于弥合聋哑群体与健听社会之间的沟通鸿沟。MedASL、RWTH-PHOENIX-Weather-2014T（PHOENIX14T）和ISL-CSLTR这三个数据集分别代表了不同语境下的关键资源。PHOENIX14T由德国亚琛工业大学于2014年创建，专注于天气领域的德国手语，已成为大规模多说话者基准数据集，推动了连续手语识别与翻译研究的发展。ISL-CSLTR则聚焦于资源相对匮乏的印度手语，为低资源语言处理提供了重要实验平台。2026年，阿拉伯联合酋长国大学的Nada Shahin与Leila Ismail教授团队在《Scientific Reports》上提出了新型医学领域数据集MedASL，该数据集模拟临床医患对话场景，旨在提升医疗辅助场景下美国手语的翻译准确性，进一步拓展了SLMT的应用边界。

当前挑战

手语翻译数据集面临的核心挑战在于其多模态时序特性的建模。手语不仅包含复杂的手部动作，还需整合面部表情、身体姿态等非手动特征，这些要素在连续视频序列中呈现出细粒度的短程运动与长程时间依赖关系，对模型的时空建模能力提出了极高要求。在数据集构建过程中，研究者需克服标注一致性难题，因为手语具有地域变体和个人表达差异，尤其是在MedASL这类专业医学对话中，术语的准确标注需要语言学与医学领域的交叉知识。此外，低资源手语如ISL-CSLTR面临数据规模有限、多样性不足的困境，而PHOENIX14T等大规模数据集则需处理计算复杂度高、预处理流程繁琐的挑战，包括关键点提取、序列归一化与对齐等步骤，这些因素共同制约着手语翻译系统的性能提升与实际部署。

常用场景

经典使用场景

在自然语言处理与计算机视觉的交叉领域，手语翻译研究致力于弥合听觉障碍群体与主流社会之间的沟通鸿沟。MedASL、PHOENIX14T和ISL-CSLTR数据集作为关键资源，其经典使用场景集中于训练和评估端到端的手语机器翻译模型。研究者通常利用这些数据集中的视频序列与对应文本标注，构建从视觉姿态到自然语言的映射系统，以验证模型在捕捉手语动态时序依赖和细粒度运动模式方面的能力。

衍生相关工作

围绕这些数据集已衍生出系列经典研究工作。PHOENIX14T催生了基于CNN-LSTM的早期融合模型、注意力机制增强的序列到序列架构，以及近期兴起的纯Transformer方法；ISL-CSLTR促进了数据增强、迁移学习等在低资源手语翻译中的探索；而MedASL的发布则引领了医疗领域手语术语标准化与领域自适应翻译的新方向，为后续专业垂直场景的研究奠定了数据基础。

数据集最近研究