Bangla text-to-gloss dataset

Name: Bangla text-to-gloss dataset
Creator: 孟加拉国达卡大学IIT
Published: 2025-04-03 13:47:51
License: 暂无描述

arXiv2025-04-03 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.02293v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是针对孟加拉语到孟加拉手语注解的文本翻译任务而构建的。由达卡大学IIT的研究人员创建，包含176857条数据。数据集的构建结合了合成数据、基于规则生成的数据、人工标注的数据以及跨语言数据增强等多种来源。该数据集旨在推动孟加拉手语翻译研究，特别是解决文本到注解的翻译问题。

This dataset is developed for the text translation task from Bengali to Bengali Sign Language annotations. Constructed by researchers from the Institute of Information Technology (IIT) of the University of Dhaka, it encompasses 176,857 data entries. The dataset integrates multiple sources including synthetic data, rule-generated data, manually annotated data, and cross-lingual data augmentation techniques. Its core objective is to advance research on Bengali Sign Language translation, particularly addressing the text-to-annotation translation problem.

提供机构：

孟加拉国达卡大学IIT

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

在低资源的孟加拉手语（BdSL）研究领域，构建高质量的文本到手势标记（text-to-gloss）数据集面临巨大挑战。本研究采用多源数据融合策略，结合人工标注、基于语法规则的生成方法以及大语言模型（GPT-4o）的合成数据。首先由BdSL专家手工标注93个句子作为种子数据，随后利用GPT-4o生成120个句子的手势标记并通过双人标注验证（Cohen's Kappa=0.7494）。进一步扩展生成1996个句子的合成数据后，引入德语手语的语法规则适配至孟加拉语，处理了6509个简单会话句子。最终整合德国PHOENIX-Weather2014T多语言语料库，通过回译和文本生成技术增强数据多样性，形成包含17万余样本的复合数据集。

使用方法

该数据集专为训练文本到手势标记的神经机器翻译模型设计，支持多种应用场景。研究者可采用端到端方式直接微调预训练模型（如mBART-50），利用其原生处理乱序文本的优势捕捉手势标记的排列特性。对于传统模型开发，建议分层使用数据：以专家标注数据作为验证集，规则生成数据增强训练样本多样性，多语言数据提升跨语言表征能力。实验表明，在微调mBART-50模型时，仅需3个epoch即可在测试集达到79.53的sacreBLEU分数。数据集还支持对比研究，包含纯孟加拉语（bangla-gloss）、多语言混合（multilingual-gloss）等不同配置，便于分析数据来源对性能的影响。

背景与挑战

背景概述

Bangla text-to-gloss数据集由孟加拉国达卡大学信息技术研究所（IIT）的Sharif Md. Abdullah等研究人员于2025年创建，旨在解决孟加拉手语（BdSL）文本到注释翻译任务的研究空白。该数据集通过结合规则生成、大型语言模型（LLM）合成数据以及多语言语料库（如PHOENIX-Weather2014T）构建，填补了BdSL领域缺乏高质量标注数据的缺陷。其创新性体现在首次将德国和美国手语的语法规则适配至BdSL，并利用LLM生成合成数据以降低人工标注成本。该数据集为低资源手语研究提供了重要基准，推动了跨语言手语翻译技术的发展。

当前挑战

该数据集面临的核心挑战包括两方面：领域问题方面，BdSL词汇量仅1200词，远小于孟加拉语10万词的规模，导致文本到注释的映射存在严重语义覆盖不足；注释生成需处理孟加拉语复杂的形态结构（如SOV语序和否定词移位），而现有规则基于德语等非相似语系设计，适配难度高。构建过程方面，人工标注依赖稀缺的BdSL专家，原始标注数据仅93句；LLM生成的合成数据虽提升规模，但经评估准确率为86.57%，需通过反向翻译等技术增强可靠性；多语言数据整合时，德语PHOENIX数据集与BdSL语法差异显著，需设计特定过滤机制以避免噪声干扰。

常用场景

经典使用场景

Bangla text-to-gloss数据集在自然语言处理领域中被广泛用于研究文本到手语词汇（gloss）的转换问题。该数据集通过结合规则生成和大型语言模型（LLM）合成数据，为低资源的Bangla手语（BdSL）研究提供了重要支持。其经典使用场景包括训练和评估多语言翻译模型，如mBART和mBERT，以实现高效的文本到手语词汇的转换。

解决学术问题

该数据集解决了Bangla手语研究中缺乏高质量标注数据的问题，为文本到手语词汇的翻译任务提供了基准。通过引入规则生成和LLM合成数据，数据集显著提升了模型在低资源语言环境下的性能。此外，该数据集还验证了mBART模型在文本到gloss任务中的优越性，为相关研究提供了新的技术路径。

实际应用

在实际应用中，Bangla text-to-gloss数据集被用于开发手语翻译系统，帮助聋哑人士与主流社会进行无障碍交流。例如，该数据集可以用于构建实时翻译工具，将Bangla文本转换为手语词汇，进一步生成手语视频或动画。这类应用在教育、媒体和公共服务领域具有广泛潜力。

数据集最近研究