ISLR101

Name: ISLR101
Creator: Sharif University of Technology
Published: 2025-03-16 18:57:01
License: 暂无描述

arXiv2025-03-16 更新2025-03-19 收录

下载链接：

http://arxiv.org/abs/2503.12451v1

下载链接

链接失效反馈

官方服务：

资源简介：

ISLR101是一个公开的伊朗手语词汇级识别数据集，由Sharif University of Technology的Social and Cognitive Robotics Lab.创建。该数据集包含4614个视频，涵盖101个不同的手语词汇，由10位手语者表演。每个词汇至少由8位不同的手语者表演，这有利于提高训练出的手语识别模型的泛化能力。该数据集适用于词级手语识别研究，可促进手语识别技术的发展。

ISLR101 is a publicly available lexicon-level Iranian Sign Language recognition dataset, developed by the Social and Cognitive Robotics Lab at Sharif University of Technology. This dataset comprises 4614 videos covering 101 distinct sign language vocabulary items, performed by 10 signers. Each vocabulary item is performed by at least 8 different signers, which helps improve the generalization capability of trained sign language recognition models. This dataset is suitable for word-level sign language recognition research and can promote the development of sign language recognition technologies.

提供机构：

Sharif University of Technology

创建时间：

2025-03-16

搜集汇总

数据集介绍

构建方式

ISLR101数据集的构建过程采用了多样化的背景和多个手语者，以确保数据的广泛性和实用性。数据集包含4,614个视频，覆盖101个不同的伊朗手语词汇，每个词汇由10名不同的手语者录制，其中包括聋人、手语翻译者和第二语言学习者。视频的分辨率为800×600像素，帧率为25帧每秒。此外，数据集还包含了使用OpenPose提取的骨架姿态信息，为研究提供了丰富的多模态数据。

使用方法

ISLR101数据集的使用方法主要围绕基于视觉外观和骨架的两种框架展开。对于视觉外观框架，研究者可以使用MobileNet-V2进行空间特征提取，并结合Transformer进行时序建模。对于骨架框架，研究者可以利用OpenPose提取的骨架信息，结合时空Transformer网络（ST-TR）进行建模。数据集已划分为训练集、验证集和测试集，便于研究者进行公平的模型比较和评估。

背景与挑战

背景概述

ISLR101数据集是由伊朗谢里夫理工大学的Hossein Ranjbar和Alireza Taheri等人于2024年推出的首个公开的伊朗手语识别数据集。该数据集旨在解决手语识别领域中的数据稀缺问题，特别是针对伊朗手语（ISL）的孤立词识别任务。ISLR101包含4,614个视频，涵盖了101个不同的手语词汇，由10名不同背景的参与者录制，视频分辨率为800×600像素，帧率为25帧每秒。此外，数据集还提供了通过OpenPose提取的骨架姿态信息。ISLR101的发布为伊朗手语识别研究提供了重要的数据支持，推动了该领域的技术发展。

当前挑战

ISLR101数据集在构建和应用过程中面临多重挑战。首先，手语识别本身具有高度复杂性，手语词汇的多样性、手势的细微差异以及面部表情的变化都增加了识别的难度。其次，手语缺乏标准化，同一词汇在不同地区或不同使用者之间可能存在多种表达方式，这进一步加剧了模型的泛化难度。此外，数据集的构建过程中，如何确保视频质量、背景多样性以及参与者的代表性也是关键挑战。尽管ISLR101通过多背景录制和骨架信息提取部分缓解了这些问题，但在实际应用中，如何应对光照变化、遮挡以及手势的快速运动仍是亟待解决的难题。

常用场景

经典使用场景

ISLR101数据集在孤立手语识别领域具有广泛的应用场景。该数据集包含了101个伊朗手语词汇的4614个视频，涵盖了10位不同手语者的多样化背景和手势变化。其经典使用场景包括基于视觉外观和骨架信息的深度学习模型训练与评估。通过提供高分辨率的视频和骨架姿态信息，ISLR101为研究者提供了丰富的多模态数据，能够有效支持手语识别系统的开发与优化。

解决学术问题

ISLR101数据集解决了手语识别领域中的关键学术问题，尤其是数据稀缺性问题。由于手语使用者的数量相对较少，且手语缺乏标准化，导致高质量手语数据集的匮乏。ISLR101通过提供多样化的手语视频和骨架信息，填补了这一空白，为孤立手语识别任务提供了可靠的数据支持。此外，该数据集还通过引入多模态信息（如视觉外观和骨架姿态），帮助研究者更好地建模手语的时空特征，从而提升识别精度。

实际应用

ISLR101数据集在实际应用中具有重要价值，尤其是在手语翻译和辅助交流技术的开发中。通过训练基于该数据集的深度学习模型，可以实现高效的手语识别系统，帮助听力障碍者与听力正常者之间的无障碍沟通。此外，该数据集还可用于教育领域，帮助学习者通过视频和骨架信息更好地理解和掌握手语。其多样化的背景和手势变化也使得模型能够适应现实场景中的复杂环境。

数据集最近研究