American Sign Language (ASL) Gesture Dataset

github2024-11-27 更新2024-11-30 收录

下载链接：

https://github.com/tanmayJivnani/Sign-Language-to-Text-and-Speech

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含美国手语（ASL）手势的图像，涵盖A-Z字母、0-9数字、空格和句号手势。数据集用于训练机器学习模型，以实现手语到文本和语音的转换。

This dataset comprises images of American Sign Language (ASL) gestures, covering gestures for letters A-Z, digits 0-9, spaces, and periods. It is utilized for training machine learning models to achieve sign language-to-text and speech conversion.

创建时间：

2024-11-19

原始信息汇总

数据集概述

数据集内容

数据集类型: 美国手语（ASL）手势数据集
数据集范围: 包含A-Z字母、0-9数字、一个表示空格的手势和一个表示句号的手势，共计38个类别。
数据集创建: 通过collectImgs.py脚本使用摄像头捕捉手势图像，每个手势类别捕捉100张图像，确保多样化的角度和光照条件。

数据集处理

特征提取: 使用MediaPipe提取每个手势的21个关键点，每个关键点转换为归一化的2D坐标（x, y），每个样本生成42个特征。
数据预处理: 预处理后的数据保存为pickle文件，使用createDataset.py脚本进行处理。

数据集使用

预训练模型: 提供了一个预训练的模型model.p，用户可以直接使用。
自定义模型训练: 用户可以使用提供的脚本和说明创建和训练自己的模型。

技术栈

编程语言: Python
库: MediaPipe, OpenCV, Tkinter, Pyttsx3, Scikit-learn
机器学习模型: Random Forest Classifier

搜集汇总

数据集介绍

构建方式

在构建美国手语（ASL）手势数据集时，研究团队通过自定义脚本`collectImgs.py`捕捉并准备了一个涵盖A-Z字母、0-9数字、空格和句号手势的专用数据集。每个手势类别均采集了100张图像，确保在不同角度和光照条件下进行多样化训练。利用MediaPipe技术，从每张图像中提取21个关键手部地标，并将其转换为标准化二维坐标，最终形成每样本42个特征的数据集。通过`createDataset.py`脚本，这些预处理数据被保存为`pickle`文件，为后续的模型训练奠定了坚实基础。

使用方法

使用该数据集有两种主要方式：直接使用预训练模型或训练自定义模型。对于前者，用户只需克隆仓库、安装依赖并运行`main.py`脚本，即可利用摄像头实时识别手势并转换为语音。对于后者，用户可以通过`collectImgs.py`收集自定义手势图像，使用`createDataset.py`处理数据，并通过`trainClassifier.py`训练新模型。这种双轨制使用方法确保了数据集的广泛适用性和深度定制化能力。

背景与挑战

背景概述

美国手语（American Sign Language, ASL）手势数据集是为了解决手语使用者与非手语使用者之间的沟通障碍而创建的。该项目由Tanmay Jivnani、Shravani Verma和Aishwarya Shendkar等研究人员主导，旨在通过机器学习技术将ASL手势实时转换为口语或文字。数据集涵盖了A-Z字母、0-9数字、以及表示空格和句号的特殊手势，共计38个类别。该数据集的创建不仅推动了手语识别技术的发展，还为手语使用者提供了更便捷的沟通方式，具有重要的社会意义和应用价值。

当前挑战

尽管ASL手势数据集在手语识别领域取得了显著进展，但仍面临若干挑战。首先，数据集的构建过程中需要确保手势图像在不同角度和光照条件下的多样性，以提高模型的鲁棒性。其次，实时手势识别系统需要处理高速数据流，这对算法的效率和准确性提出了高要求。此外，当前数据集仅支持静态手势，未来需扩展至动态手势的识别，以覆盖更广泛的手语表达。最后，模型的泛化能力仍需提升，以适应不同用户和环境下的手势识别需求。

常用场景

经典使用场景

美国手语（ASL）手势数据集的经典使用场景主要集中在实时手语识别与语音转换系统中。该数据集通过捕捉和准备涵盖A-Z字母、0-9数字以及空格和句号手势的自定义数据集，为机器学习模型提供了丰富的训练样本。这一数据集支持实时摄像头输入的手势识别，并通过预训练模型实现快速部署，从而在教育、医疗和人机交互等领域中，为聋哑人士提供了一种有效的沟通桥梁。

解决学术问题

美国手语（ASL）手势数据集解决了手语识别领域的多个学术研究问题。首先，它通过提供多样化的手势样本，增强了模型的泛化能力，解决了手势识别中的角度和光照变化问题。其次，该数据集支持自定义模型的训练，为研究者提供了灵活的实验平台，促进了手语识别技术的进步。此外，数据集的实时转换功能为研究手语与语音之间的映射关系提供了宝贵的数据支持，推动了跨模态语言处理的发展。

实际应用

美国手语（ASL）手势数据集在实际应用中展现了广泛的前景。在教育领域，该数据集可用于开发手语教学工具，帮助学生更直观地学习手语。在医疗领域，它可以作为辅助沟通工具，提升聋哑患者与医护人员的交流效率。在人机交互领域，数据集支持的实时手语识别系统为智能家居、虚拟助手等应用提供了新的交互方式，极大地提升了用户体验。

数据集最近研究