BdSLIG

Name: BdSLIG
Creator: 伊斯兰技术大学计算机科学与工程学院
Published: 2025-08-22 12:11:28
License: 暂无描述

arXiv2025-08-22 更新2025-08-26 收录

下载链接：

https://huggingface.co/datasets/aplycaebous/BdSLIG

下载链接

链接失效反馈

官方服务：

资源简介：

BdSLIG是首个孟加拉语手语指令生成数据集，用于评估视觉语言模型在低资源手语指令生成任务上的性能，以及长尾视觉概念上的表现。数据集包含60个手语单词，每个单词均有一个代表视频和相应的手语指令文本。创建过程中，我们使用了三种手语参数，包括手形、动作和方向，以增强指令的结构性和可重复性。BdSLIG旨在促进低资源手语学习系统的发展，提高手语学习的包容性和可及性。

提供机构：

伊斯兰技术大学计算机科学与工程学院

创建时间：

2025-08-22

原始信息汇总

数据集概述

基本信息

数据集名称：BdSLIG
许可证：MIT
任务类别：文本生成
语言：孟加拉语（bn）
标签：手语

研究背景

该数据集为低资源手语指令生成数据集，专注于孟加拉语和手语参数注入（SPI）提示方法，将用于描述手语的视觉线索整合到视觉语言提示中。

手语参数

数据集整合了以下手语参数到视觉语言提示中：

手形：手指和手掌的形态配置，例如抬起、伸展、指向、弯曲、展开、扭转。
动作类型：手的轨迹或动作，例如静态、圆形、挤压、抓取、旋转、拉动。
位置：产生手语时手的放置位置，例如靠近头部、前额、眼睛、耳朵、鼻子、嘴巴、胸部、肩膀。
手掌方向：手掌相对于手语者身体所朝向的方向，例如向内、向外、向上、向下、左、右。
空间交互：一只手或双手在手语空间方案中的角色，例如右手主动、左手主动、双手对称、双手不对称。
时间动态：动作开始、持续和重复的时间模式，例如持续保持、重复振荡、单次点击、重复点击。
面部线索：面部表情，例如中性、眉毛抬起、眉毛皱起、嘴巴张开、嘴巴闭合、嘴唇撅起，可用于消除手语的歧义。

相关资源

论文：CV4A11y@ICCV_2025
代码：tariquzzamanf/SPIP
数据集地址：aplycaebous/BdSLIG

搜集汇总

数据集介绍

构建方式

在孟加拉手语研究领域，BdSLIG数据集的构建采用了系统化的多阶段流程。其视觉素材源自BdSLW60手语识别数据集，从中精选每个词汇的代表性视频样本。标注工作由三名经过专业培训的标注人员执行，严格遵循基于七大手语参数（包括手部形态、运动轨迹、空间位置等）的标注指南。为确保数据质量，标注结果经过双重验证：先进行文本语法与语义一致性检查，再由孟加拉手语领域专家进行专业审核，最终形成结构化的指令文本数据集。

特点

作为首个专注于孟加拉手语指令生成的数据集，BdSLIG具有显著的稀缺性与专业性特征。其核心价值体现在覆盖60个基础词汇的视觉-文本配对数据，每个样本均包含标准化视频帧序列与符合手语运动学特征的结构化文本描述。数据集特别强调对长尾视觉概念的捕捉，由于孟加拉手语在预训练数据中的低覆盖率，使其成为评估视觉语言模型对稀缺概念理解能力的理想基准。数据标注深度融合了手语语言学参数体系，为生成具有运动学准确性的指令提供了专业保障。

使用方法

该数据集主要用于评估视觉语言模型在手语指令生成任务上的零样本性能。研究人员可通过两种提示策略进行实验：传统自然语言提示与创新的手语参数注入提示（SPI）。使用流程包含三个关键阶段：首先对输入视频进行帧采样处理以降低计算复杂度，随后将手语参数嵌入文本提示模板，最后通过生成模型输出结构化指令。评估时需采用多维度文本指标（如ROUGE、BLEU、BERTScore）综合衡量生成文本与专业标注的相似度，同时建议结合人工评估以弥补自动指标的局限性。

背景与挑战

背景概述

BdSLIG数据集由伊斯兰技术大学计算机科学与工程系的研究团队于2025年创建，是首个针对孟加拉手语指令生成任务构建的多模态数据集。该数据集源于对非美国手语资源匮乏问题的关注，旨在通过视觉语言模型生成结构化文本指令，促进听障人群与健听人群的双向交流。作为低资源手语研究的重要里程碑，BdSLIG填补了孟加拉手语生成任务的空白，为多语言手语技术研究提供了关键基础设施。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决低资源手语细粒度视觉概念理解难题，包括手势形态学配置、运动轨迹和空间交互等7类参数的精确描述；在构建层面，面临标注一致性保障困难，需要协调多名标注者遵循严格的手语参数规范，同时确保文本指令的语法准确性和动作可复现性。此外，视频帧采样策略需平衡时序信息保留与计算效率，而评估体系也需克服传统文本指标对手语描述主观性的不适应问题。

常用场景

经典使用场景

在低资源手语研究领域，BdSLIG数据集被广泛用于评估视觉语言模型在孟加拉手语指令生成任务中的零样本性能。研究者通过该数据集系统分析模型对长尾分布视觉概念的捕捉能力，特别是在手部形态、运动轨迹和空间关系等细粒度语义特征上的表现。该数据集为跨模态生成任务提供了标准化评估基准，推动了手语技术从识别到生成的关键转型。

实际应用

该数据集直接服务于孟加拉手语教育领域，通过自动生成分步骤动作指令，帮助非手语使用者快速掌握正确手势。在辅助技术场景中，系统可根据用户演示视频生成标准化指导文本，实现双向交流支持。此外，其结构化指令输出可作为手语合成系统的输入源，推动无障碍通信技术的实际落地与应用推广。

衍生相关工作

基于BdSLIG数据集衍生的符号参数注入提示技术已被扩展至其他低资源手语研究，如印度手语指令生成系统SignAlignLM。其标注范式启发了多模态大模型在长尾视觉概念评估方面的系列工作，包括跨语言手语参数统一表示学习、基于LLM的手语指令评估框架等创新研究方向，推动了手语技术生态的多元化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集