BanglaSTEM

Name: BanglaSTEM
Creator: 孟加拉工程技术大学计算机科学与工程学院
Published: 2025-11-05 22:30:24
License: 暂无描述

arXiv2025-11-05 更新2025-11-13 收录

下载链接：

https://hf-mirror.com/reyazul/BanglaSTEM-T5

下载链接

链接失效反馈

官方服务：

资源简介：

BanglaSTEM是一个包含5000个精心挑选的孟加拉语-英语句子对的数据集，涵盖计算机科学、数学、物理、化学和生物学等STEM领域。数据集通过生成超过12000个翻译并使用人工评估者选择高质量的翻译对来确保技术术语的准确性。该数据集用于训练一个基于T5的翻译模型，并在生成代码和解决数学问题两个任务上进行了测试，结果显示在技术内容翻译准确性方面有显著提升。

提供机构：

孟加拉工程技术大学计算机科学与工程学院

创建时间：

2025-11-05

搜集汇总

数据集介绍

构建方式

在STEM领域技术翻译资源匮乏的背景下，BanglaSTEM数据集通过多模型协同生成与人工精细筛选相结合的方式构建。研究团队采用GPT-4o、Claude Sonnet 4和Gemma 2.5 Pro三种前沿模型，基于领域特定的少样本提示生成初始翻译候选。随后由七名具备STEM背景的孟加拉语母语专家，从翻译准确性、术语精确性和语言自然度三个维度进行双重标注，最终从12,711个候选对中遴选出5,000组高质量平行语句。

特点

该数据集显著特征体现在其专业领域覆盖广度与技术术语处理深度。涵盖计算机科学、数学、物理、化学及生物信息学五大STEM领域，其中编程类内容占比52%，数学类达25.5%。数据集创新性地记录了技术术语的本地化处理策略，编程领域78%采用音译术语，而数学领域58%使用原生孟加拉语词汇。语言统计显示孟加拉语句子平均长度12.4词，英语14.5词，体现了形态学差异下的精准对应。

使用方法

该数据集主要应用于技术领域机器翻译模型的优化训练。研究人员可基于BanglaSTEM对现有序列到序列模型进行领域自适应微调，如采用T5架构模型在5,000组平行语料上进行监督学习。实践表明，经该数据集优化的翻译模型在代码生成任务中准确率达82.5%，数学问题解决任务达79%，显著提升开源大语言模型处理孟加拉语技术内容的能力。使用者可通过翻译-处理-回译的流程，将孟加拉语技术问题转化为英语处理后再还原结果。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的技术文档翻译长期面临资源匮乏的困境。BanglaSTEM数据集由孟加拉国工程技术大学的研究团队于2025年创建，旨在解决孟加拉语在STEM领域专业术语翻译的精准性问题。该数据集包含5,000对经过严格筛选的孟加拉语-英语平行句对，覆盖计算机科学、数学、物理、化学与生物学五大核心学科，通过融合大语言模型生成与人工校验的双重机制，显著提升了技术文档的跨语言转换质量，为低资源语言的智能化教育与应用奠定了关键基础。

当前挑战

当前技术翻译领域面临双重挑战：在领域问题层面，通用翻译模型难以准确处理STEM专业术语的语义转换，例如编程领域的递归概念与数学领域的拓扑术语常因误译导致下游任务失效；在构建过程中，需克服低资源语言专业语料稀缺的困境，通过多模型生成12,711个候选翻译后，仍需设计加权评分机制与跨领域人工标注流程，确保技术术语保留率与语言自然度的平衡。

常用场景

解决学术问题

该数据集有效解决了低资源语言在技术领域机器翻译的核心难题。传统翻译模型在处理孟加拉语技术内容时普遍存在术语误译问题，导致下游任务性能显著下降。BanglaSTEM通过人类专家筛选的优质语料，建立了技术术语准确翻译的标准，使得开源语言模型能够正确理解孟加拉语技术问题，在代码生成任务中准确率提升至82.5%，数学问题解决成功率提升至79%，显著缩小了与英语模型的能力差距。

衍生相关工作

基于BanglaSTEM的范式，衍生出多个重要的研究方向。技术领域平行语料构建方法被扩展到其他低资源语言，形成了跨语言技术翻译的新标准。其人类专家筛选机制启发了多模态技术文档的质量控制流程，而基于下游任务性能的评估体系则推动了机器翻译评估范式的革新。这些工作共同构建了低资源语言技术翻译的完整方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集