AUTSL

arXiv2025-09-30 收录

下载链接：

http://cvml.ankara.edu.tr/datasets/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过使用Kinect V2传感器收集的土耳其手语识别数据集，包含了43位手语者在20种不同背景下表演的38,336个视频。数据集中包含了226个不同的手语词汇，并在实验中使用了平衡的测试集。视频总量达到了38,336个，任务是对手语进行识别。

This dataset is a Turkish Sign Language recognition dataset collected using the Kinect V2 sensor. It contains 38,336 videos performed by 43 sign language signers in 20 distinct backgrounds, covering 226 unique sign language glosses. A balanced test set was employed in the experiments, and the core task of this dataset is sign language recognition.

搜集汇总

数据集介绍

构建方式

在土耳其手语识别领域，AUTSL数据集的构建体现了对现实场景多样性的深度考量。该数据集通过微软Kinect v2设备采集，涵盖了226个日常高频手语词汇，由43名不同背景的签署者完成，共包含38,336个独立手语视频样本。数据采集过程注重环境多样性，在20种不同背景（包括室内外场景）下录制，并引入了动态背景、光照变化等挑战性因素，以模拟真实应用场景。样本以多模态形式存储，同步提供RGB彩色图像、深度图及骨骼关节点数据，所有视频帧统一处理为512x512分辨率，确保了数据的规范性与可用性。

使用方法

该数据集的使用遵循严格的基准评估框架，主要面向用户独立的孤立手语识别任务。研究人员可采用提供的训练集（36名签署者）与测试集（7名签署者）划分，利用多模态数据进行模型开发与验证。典型使用流程包括：首先对RGB和深度数据分别进行特征提取，常用方法为基于VGG16等架构的卷积神经网络；随后通过LSTM或双向LSTM建模时序依赖关系；进阶方法可引入特征池化模块增强多尺度表征，或结合时序注意力机制聚焦关键帧。评估时需同时关注top-1、top-3和top-5识别率，以全面衡量模型对相似手势的区分能力。数据集支持端到端训练，并鼓励探索多模态融合策略以提升在复杂背景下的鲁棒性。

背景与挑战

背景概述

手语识别作为计算机视觉领域的重要分支，旨在通过算法解析手部形状、运动轨迹、身体姿态及面部表情等多源信息，实现对手语词汇的自动化理解。土耳其手语（TSL）作为特定语言体系，其大规模数据集的缺失长期制约着相关研究的深入。2020年，安卡拉大学计算机工程系的Özge Mercanoglu Sincan与Hacer Yalim Keles团队联合发布了AUTSL数据集，标志着土耳其手语研究迈入新阶段。该数据集包含43名手语者演绎的226个日常词汇，共计38,336个孤立手语视频样本，涵盖室内外20种多样化背景环境，并同步提供RGB、深度与骨骼模态数据。其核心研究目标在于构建用户无关的识别基准，推动现实场景下手语识别系统的实用化进程，为深度学习模型在复杂环境中的泛化能力评估提供了重要平台。

当前挑战

AUTSL数据集所针对的孤立手语识别任务，本质上面临着细粒度动作分析的固有难题：手语依赖手部局部姿态与全局运动的协同表征，细微差异如手指摆动幅度或重复次数即可改变语义，而不同手语者间的执行风格差异进一步增加了模型泛化难度。数据构建过程中，研究团队刻意引入了多重现实挑战：样本背景涵盖动态物体干扰（如行人穿行、树木摇曳）、光照条件剧烈变化以及室内外场景切换，导致模型需克服背景噪声与运动混淆。同时，数据集中刻意包含大量视觉相似但语义不同的手语对（如“医生”与“分钟”仅以动作重复次数区分），要求模型具备高阶时空特征判别能力。这些设计使得用户无关测试集上的基线模型准确率仅为62.02%，显著低于随机划分测试集的95.95%，凸显了现实场景下手语识别在鲁棒性与判别性上的双重挑战。

常用场景

经典使用场景

在计算机视觉与人工智能领域，AUTSL数据集作为大规模多模态土耳其手语资源，其经典使用场景集中于孤立手语识别模型的训练与评估。该数据集通过提供包含室内外多样化背景的38,336个视频样本，模拟了真实环境下的手语表达，使得研究者能够构建鲁棒性强的深度学习模型，以应对光照变化、动态背景及不同手语者姿态差异等复杂条件。

解决学术问题

AUTSL数据集有效解决了手语识别领域长期存在的若干学术难题，包括大规模词汇孤立手语的细粒度识别、多模态数据融合下的特征提取，以及用户无关场景下的模型泛化能力。通过提供RGB、深度与骨骼模态数据，该数据集支持对局部手势、面部表情及身体姿态的协同分析，显著提升了模型在相似手势区分、动态背景干扰及跨用户识别中的性能，推动了手语识别技术向实用化迈进。

实际应用

在实际应用层面，AUTSL数据集为开发辅助听障人士沟通的智能系统提供了关键数据基础。基于该数据集训练的模型可集成于实时翻译设备、教育辅助工具及公共服务平台，实现土耳其手语到文本或语音的自动转换。其多模态特性尤其适用于复杂环境下的手势捕捉，如医疗、金融等专业领域的手语交互系统，促进了无障碍通信技术的普及与社会包容性提升。

数据集最近研究