BdSLW401
收藏arXiv2025-03-04 更新2025-03-06 收录
下载链接:
http://arxiv.org/abs/2503.02360v1
下载链接
链接失效反馈官方服务:
资源简介:
BdSLW401是一个大规模的孟加拉手语数据集,由18名手语者表演的401个不同的手语词汇构成,总共包含102,176个视频样本。该数据集覆盖了正面和侧面两种视角,并提供了基于生理参考点的相对量化编码(RQE),以减少因手语者个体差异带来的影响。数据集的构建旨在推进低资源语言手语识别的研究,并为基于变压器的手语识别模型提供一个基准。
BdSLW401 is a large-scale Bengali sign language dataset. It comprises 401 distinct sign language glosses performed by 18 signers, with a total of 102,176 video samples. The dataset covers two viewing perspectives: frontal and side views, and provides Relative Quantization Encoding (RQE) based on physiological reference points to mitigate the impact of individual differences among signers. This dataset is constructed to advance research on sign language recognition for low-resource languages, and to serve as a benchmark for Transformer-based sign language recognition models.
提供机构:
暂无明确研究机构
创建时间:
2025-03-04
搜集汇总
数据集介绍

构建方式
BdSLW401数据集的构建旨在解决低资源语言如孟加拉语的手语识别(SLR)中的挑战,包括手语者之间的差异、视角变化和有限的标注数据集。该数据集包含来自18个手语者的401个手势和102,176个视频样本,涵盖了正面和侧面视角。为了提高基于Transformer的SLR,研究者引入了相对量化编码(RQE),这是一种结构化嵌入方法,将关键点锚定到生理参考点上,并对运动轨迹进行量化。RQE通过减少空间变异性来改善注意力分配,从而在WLASL100数据集上实现了44.3%的词错误率(WER)降低,在SignBD-200上降低了21.0%,并在BdSLW60和SignBD-90上取得了显著提升。然而,在大型数据集(如WLASL2000)上,固定的量化变得不足,这表明需要自适应编码策略。此外,RQE-SF,一个扩展的变体,通过稳定肩膀关键点,在保持姿态一致性的同时,在侧面视角识别中付出了小的代价。
特点
BdSLW401数据集的特点包括其大规模、多视角和词级的手语词汇。它包含了18个手语者在正面和侧面视角下的401个手势和102,176个视频样本。数据集的构建采用了相对量化编码(RQE),这是一种结构化嵌入方法,将关键点锚定到生理参考点上,并对运动轨迹进行量化。RQE通过减少空间变异性来改善注意力分配,从而提高了识别准确率。此外,RQE-SF,一个扩展的变体,通过稳定肩膀关键点,进一步提高了姿态一致性。
使用方法
使用BdSLW401数据集进行手语识别研究时,研究者可以采用相对量化编码(RQE)来改善基于Transformer的模型的识别性能。RQE通过将关键点锚定到生理参考点上,并对运动轨迹进行量化,从而减少空间变异性,并改善注意力分配。为了使用RQE,研究者需要首先从视频帧中提取关键点,然后使用RQE算法对关键点进行编码。编码后的关键点可以输入到基于Transformer的模型中进行训练和测试。此外,研究者还可以使用RQE-SF来进一步稳定肩膀关键点,从而提高姿态一致性。
背景与挑战
背景概述
BdSLW401数据集是一个大规模、多视角、单词级的孟加拉手语数据集,包含401个手语和102,176个视频样本,由18名手语者在正面和侧面视角下录制。该数据集的创建旨在解决低资源语言如孟加拉语在手语识别(SLR)方面所面临的挑战,包括手语者变异性、视角变化和标注数据集有限等问题。BdSLW401数据集的创建由Husne Ara Rubaiyeat等人主导,他们的研究工作推进了基于Transformer的SLR模型在低资源语言中的应用,并为该领域未来的研究设定了基准。
当前挑战
BdSLW401数据集和相关研究中面临的主要挑战包括:1) 解决领域问题:孟加拉手语识别的挑战在于手语者变异性、视角变化和有限的标注数据集。2) 构建过程中遇到的挑战:固定量化在大规模数据集上变得不足,需要自适应编码策略;RQE-SF虽然提高了姿态一致性,但在侧面视角识别上有所牺牲。此外,随着数据集规模的增加,RQE的效果逐渐减弱,表明需要自适应的噪声处理策略。
常用场景
经典使用场景
BdSLW401数据集主要用于基于Transformer的孟加拉手语识别研究。该数据集提供了401个手语词汇的102,176个视频样本,覆盖了18位手语者的正面和侧面视角,为手语识别研究提供了丰富的数据资源。
解决学术问题
BdSLW401数据集解决了低资源语言手语识别中的关键问题,包括手语者变化性、视角变化和标注数据有限等问题。通过引入相对量化编码(RQE)技术,该数据集显著提高了手语识别的准确性和模型的可解释性,为低资源语言手语识别研究提供了新的基准。
衍生相关工作
BdSLW401数据集的发布促进了基于Transformer的手语识别研究,并为相关研究提供了重要的数据资源。同时,RQE技术在手语识别领域的应用也为后续研究提供了新的思路和方法,推动了手语识别技术的发展。
以上内容由遇见数据集搜集并总结生成



