FDMSE-ISL

Name: FDMSE-ISL
Creator: RKMVERI Belur, 印度
Published: 2024-07-19 19:48:36
License: 暂无描述

arXiv2024-07-19 更新2024-07-23 收录

下载链接：

https://cs.rkmvu.ac.in/˜isl

下载链接

链接失效反馈

官方服务：

资源简介：

FDMSE-ISL数据集是由RKMVERI Belur, 印度机构创建的，专门用于印度手语（ISL）的孤立识别任务。该数据集包含40,033个视频，覆盖了2,002个日常使用的词汇，由20名聋哑人（10男10女）录制。数据集的创建过程中使用了静态背景和绿色屏幕，确保了数据的高质量。该数据集主要用于解决计算机视觉领域中手语自动识别的问题，特别是在印度手语的识别上，旨在提高识别系统的准确性和效率。

The FDMSE-ISL dataset was created by RKMVERI Belur, an Indian institution, and is specifically designed for the task of isolated sign language (ISL) recognition in India. The dataset contains 40,033 videos that cover 2,002 commonly used vocabulary items, recorded by 20 deaf-blind individuals (10 males and 10 females). The creation of the dataset employed static backgrounds and green screens to ensure high-quality data. This dataset is primarily used to address the problem of automatic sign language recognition in the field of computer vision, particularly for the recognition of Indian sign language, with the aim of enhancing the accuracy and efficiency of recognition systems.

提供机构：

RKMVERI Belur, 印度

创建时间：

2024-07-19

原始信息汇总

数据集详情总结

概述

数据集名称: 未提供
数据集描述: 未提供
数据集来源: 未提供
数据集类型: 未提供

数据集内容

数据字段: 未提供
数据格式: 未提供
数据量: 未提供

数据集使用

使用场景: 未提供
使用方法: 未提供
许可证: 未提供

数据集更新

最后更新日期: 未提供
更新频率: 未提供

数据集联系

联系人: 未提供
联系方式: 未提供

搜集汇总

数据集介绍

构建方式

FDMSE-ISL数据集的构建基于印度手语专家协商的FDMSE字典，涵盖了聋人社区日常交流中使用的2,002个常用词汇。数据集由20位（10男10女）聋人成年手语者表演并记录了40033个视频。数据收集在一个静态的绿幕背景下进行，使用了三个Logitech BRIO相机和一个Azure Kinect DK相机来捕捉深度信息。所有视频都被裁剪到1200 × 950分辨率，并以每秒60帧的帧率录制。为了方便管理和自动注释，研究人员开发了一个名为Word Viewer and Timeline Manager (WVTM)的工具。

特点

FDMSE-ISL数据集具有多个显著特点，包括大规模的视频数量、丰富的词汇量、性别平衡的表演者、手语词分析和基于词汇数量的分类（如原子符号和复合符号）。此外，数据集是多模态和多视角的，包含了从四个不同视角（两个正面视角和两个侧面视角）录制的视频，以及深度信息。这些特点使得数据集对于孤立印度手语识别任务具有很高的实用性和挑战性。

使用方法

使用FDMSE-ISL数据集时，首先需要对手语者的骨架关键点进行检测，然后使用提出的Hierarchical Windowed Graph Attention Network (HWGAT)模型进行识别。模型输入包括骨架图结构和时空输入表示，其中骨架图由27个关键点组成，时空输入表示通过傅里叶特征映射进行嵌入。模型通过多个部分注意力层和时态合并技术来捕获局部和全局的时空上下文信息，并通过全连接层进行分类。数据集被分为训练集、验证集和测试集，以供模型训练和评估使用。

背景与挑战

背景概述

自动手语识别是计算机视觉领域的一个重要任务，对于建立健壮的手语识别系统，我们需要大量的数据，特别是在印度手语（ISL）方面。在这篇论文中，我们提出了一个大规模的孤立ISL数据集和一个基于骨骼图结构的新的手语识别模型。该数据集涵盖了聋人社区中使用的20202个日常使用的通用词，由20名（10名男性和10名女性）聋人成年手语者录制（包含40033个视频）。我们提出了一个名为分层窗口图注意力网络（HWGAT）的手语识别模型，通过利用人体上半身骨骼图结构。HWGAT试图通过关注由人体骨骼图结构引起的不同身体部位的独特运动。通过广泛的实验，评估了所提出数据集和模型的实用性。我们在所提出的数据集上预训练了所提出的模型，并在不同的手语数据集上进行微调，与现有的最先进的基于骨骼的模型相比，在INCLUDE [46]、LSA64 [41]、AUTSL [45]和WLASL [25]上分别提高了1.10、0.46、0.78和6.84个百分点。所提出的数据集和模型实现代码将在https://cs.rkmvu.ac.in/˜isl上提供。

当前挑战

1) 手语识别任务中的挑战：手语识别任务是人类行为识别视频数据的子领域，它继承了所有挑战，例如类别之间的模糊边界、身体部位的遮挡、人类外观、录音环境和录音设置。此外，手语词包含非常微妙的时空可区分特征，这又增加了另一个层面的复杂性。这使得手语（尤其是ISL）识别任务比动作识别更具挑战性，最先进的动作识别模型在手语识别任务中表现不足。2) 构建过程中遇到的挑战：为了解决这个问题，我们提出了一个名为分层窗口图注意力网络（HWGAT）的新的窗口图注意力模型，专门为在骨骼图上进行手语识别而开发。

常用场景

经典使用场景

FDMSE-ISL数据集被广泛应用于孤立印度手语识别研究，为研究人员提供了一个包含丰富日常用语词汇的大型数据集，使得构建鲁棒的孤立印度手语识别系统成为可能。

衍生相关工作

FDMSE-ISL数据集的提出衍生了基于骨架图结构的层次窗口图注意力网络（HWGAT）模型，该模型在多个手语识别数据集上取得了优异的性能。此外，该数据集的多模态特性为研究多模态手语识别提供了可能，推动了手语识别领域的发展。

数据集最近研究