IsharaKhobor
收藏arXiv2025-11-27 更新2025-11-28 收录
下载链接:
https://www.kaggle.com/datasets/hasanssl/isharakhobor
下载链接
链接失效反馈官方服务:
资源简介:
IsharaKhobor是由伊斯兰科技大学系统与软件实验室构建的孟加拉手语翻译数据集,旨在解决孟加拉手语资源匮乏问题。该数据集包含5642个中性新闻语句的手语视频片段,总时长11.3小时,词汇量达11359个,源数据来自孟加拉国电视台四年半的新闻节目。数据集通过专业手语专家逐帧标注构建,采用自动语音识别与人工校验相结合的方式确保转录质量,主要应用于手语翻译模型训练,为听障人士开发人工智能辅助工具提供关键数据支撑。
IsharaKhobor is a Bangladeshi Sign Language (BSL) translation dataset developed by the System and Software Laboratory of Islamic University of Technology, aiming to alleviate the shortage of BSL resources. This dataset includes 5,642 sign language video clips of neutral news statements, with a total duration of 11.3 hours and a vocabulary size of 11,359. Its source data comes from four-and-a-half years of news programs broadcast on Bangladesh Television. The dataset was constructed via frame-by-frame annotations by professional sign language experts, and adopts a combination of automatic speech recognition and manual verification to ensure transcription quality. It is primarily used for training sign language translation models, providing critical data support for the development of AI-assisted tools for the hearing-impaired.
提供机构:
伊斯兰科技大学系统与软件实验室
创建时间:
2025-11-27
搜集汇总
数据集介绍

构建方式
在孟加拉手语翻译研究领域,数据稀缺问题长期制约着相关技术的发展。IsharaKhobor数据集的构建始于对孟加拉国电视台新闻节目“Desh O Jonopoder Khobor”的系统性采集,通过下载700余个手语新闻视频作为原始素材。采用经过优化的开源自动语音识别工具生成初始字幕,并聘请六名专业转录员进行人工校正,特别针对方言表达和语义准确性进行精细处理。随后由资深手语专家对500个视频进行帧级标注,精准界定每个手语句子的起始与结束位置,最终通过自动化裁剪获得5642个有效视频片段。
特点
该数据集展现出显著的领域特色,其语料来源覆盖政府事务、体育赛事、公共宣传等多元新闻主题,词汇量达到11359个独特词条,体现了孟加拉日常语言的丰富性。特别值得注意的是数据集包含8位专业手语译员在四年半时间跨度内的表达样本,为研究手语表达的个体差异提供了宝贵资源。针对词汇量过大的挑战,研究团队还衍生出经过词汇限制的IsharaKhobor_SMALL和经过标准化的IsharaKhobor_CANONICAL_SMALL两个子集,通过控制词汇变异程度有效提升了机器翻译性能。
使用方法
研究实践中,该数据集支持多种先进手语翻译架构的实验验证。数据集采用7:2:1的随机划分策略,确保训练集、测试集与验证集的均衡分布。在具体应用中,研究者可基于MediaPipe提取的原始姿态特征或相对量化嵌入(RQE)进行模型训练,特别适合无注释手语翻译Transformer(SLTT)和手语注意力Transformer(GASLT)等前沿架构。针对不同规模的子集,建议调整最大序列长度等超参数,如在完整数据集设置67个词的最大句长,而在小型子集中缩减至30个词以优化训练效果。
背景与挑战
背景概述
IsharaKhobor数据集由伊斯兰技术大学系统与软件实验室于2025年发布,致力于解决孟加拉手语翻译领域资源匮乏的核心问题。该数据集基于孟加拉国家电视台长达四年半的新闻手语播报视频构建,涵盖政治、体育、灾害等多领域内容,旨在通过5642个句子级标注样本推动人工智能辅助听障人群沟通技术的革新。
当前挑战
数据集构建面临视频与文本对齐的复杂性,手语者动作起始延迟与句子跳跃现象导致自动标注困难。领域挑战体现为词汇量远超样本规模,11359个词汇对应5642个样本造成数据稀疏;同时缺乏专业手语注释,现有无注释翻译模型在基准测试中BLEU-4得分仅达3.88,凸显语义对齐与模型泛化的双重瓶颈。
常用场景
经典使用场景
在孟加拉手语翻译研究领域,IsharaKhobor数据集作为首个大规模新闻主题语料库,为无注释手语翻译模型的训练与评估提供了关键支撑。该数据集通过提取孟加拉国家电视台的新闻手语播报视频,构建了涵盖政治、体育、公共事务等多元主题的句子级对齐语料,显著缓解了低资源手语数据稀缺的困境。其经典应用体现在为Transformer架构的端到端手语翻译模型提供标准化测试平台,尤其在词汇规范化和多模态嵌入实验中展现出重要价值。
衍生相关工作
该数据集催生了多项创新性研究,包括基于相对量化嵌入的跨模态对齐方法、词汇规范化技术在手语翻译中的系统性应用。其衍生的子集IsharaKhobor_SMALL成为验证词汇限制策略有效性的基准工具,相关成果推动了Gloss Attention Transformer等架构在低资源语言的适配优化。数据集构建过程中发展的视频裁剪与标注流程,也为后续孟加拉手语合成数据集Isharakotha的创建提供了方法论借鉴。
数据集最近研究
最新研究方向
在孟加拉手语翻译领域,IsharaKhobor数据集的推出显著推动了低资源语言处理的前沿探索。当前研究聚焦于无注释手语翻译技术,通过结合相对量化嵌入与语言相似性启发式方法,有效提升了翻译模型的鲁棒性。词汇标准化与数据增强策略的引入,为解决新闻领域高词汇复杂度问题提供了新思路,同时多模态大语言模型在生成手语描述方面的应用,正逐步缩小与注释依赖方法的性能差距。这些进展不仅为孟加拉语听障群体构建了更精准的辅助工具,也为全球低资源手语研究提供了可复用的技术范式。
相关研究论文
- 1通过伊斯兰科技大学系统与软件实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



