Bangla Code Instruction dataset

Name: Bangla Code Instruction dataset
Creator: 乔治梅森大学
Published: 2025-09-11 10:25:49
License: 暂无描述

arXiv2025-09-11 更新2025-09-13 收录

下载链接：

https://github.com/mraihan-gmu/TigerCoder/

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集为Bangla语言编程领域提供了首个全面的代码指令数据集，包含30万个指令-代码对，用于编程领域的适应。数据集由三部分组成：Bangla-Code-Instruct-SI、Bangla-Code-Instruct-Syn和Bangla-Code-Instruct-TE，分别包含10万个指令-代码对，涵盖自我指导、合成生成和机器翻译三种方法。数据集旨在促进低资源语言代码生成模型的发展，并通过开源资源推动Bangla语言代码生成领域的研究。

This dataset is the first comprehensive code instruction dataset for the Bangla programming domain, containing 300,000 instruction-code pairs for programming domain adaptation. The dataset consists of three subsets: Bangla-Code-Instruct-SI, Bangla-Code-Instruct-Syn, and Bangla-Code-Instruct-TE, each with 100,000 instruction-code pairs, covering three data construction methods: self-instruction, synthetic generation, and machine translation. This dataset aims to facilitate the development of code generation models for low-resource languages, and promote research in the Bangla code generation domain via open-source resources.

提供机构：

乔治梅森大学

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

在低资源语言编程任务数据稀缺的背景下，Bangla Code Instruction数据集采用三重构建策略：通过自指令方法生成10万对专家引导的指令-代码对，由GPT-4o生成并经过语法与执行验证；基于合成生成方法创建10万对多样化指令对，采用BERTScore过滤冗余内容；借助机器翻译技术转化Evol-Instruct英文指令，通过Comet QE和BERTScore双重质量筛选保留10万对高质量翻译数据，最终形成30万对覆盖多编程范式的双语语料库。

特点

该数据集显著特征体现在语言与技术的深度融合：全面覆盖Python、Java、JavaScript、Ruby和C++五种编程语言，支持跨语言代码生成评估；指令设计融合孟加拉语自然表达与编程术语体系，包含算法、数据结构、数学运算等多元主题；所有代码均通过语法解析与沙箱执行验证，确保功能正确性；三重数据源构建模式（自指令、合成生成、机器翻译）保障了指令多样性与技术准确性之间的平衡。

使用方法

数据集主要服务于孟加拉语代码生成模型的训练与评估：研究者可加载三元组（孟加拉语指令、目标代码、测试用例）进行监督微调，提升模型对低资源语言编程指令的理解能力；支持跨编程语言的零样本迁移评估，通过MBPP-Bangla基准测试衡量模型多语言代码生成质量；提供标准化数据分割方案，支持训练-验证-测试三阶段模型开发流程，所有代码片段可直接集成到主流深度学习框架进行端到端训练。

背景与挑战

背景概述

孟加拉语作为全球第五大语言，在代码生成任务中面临严重的资源匮乏问题。2025年，乔治梅森大学的Nishat Raihan等人发布了Bangla Code Instruction数据集，旨在解决大语言模型在孟加拉语代码生成领域的性能缺陷。该数据集包含30万条高质量的指令-代码对，涵盖自生成、合成和翻译三种构建策略，为TigerCoder系列模型的训练提供了核心支持。这一工作显著提升了孟加拉语代码生成的性能，为低资源语言的计算语言学研究和软件工程应用奠定了重要基础。

当前挑战

该数据集需解决孟加拉语代码生成中自然语言理解与程序逻辑映射的挑战，包括术语歧义消除、语法结构对齐及多语言代码一致性维护。构建过程中面临高质量双语数据稀缺、机器翻译导致的语义失真、代码执行验证的复杂性，以及跨编程语言语法规则适配等难题，需通过人工校验、多轮质量过滤和动态执行测试来保障数据可靠性。

常用场景

经典使用场景

在孟加拉语代码生成研究领域，Bangla Code Instruction dataset被广泛用于训练和评估大语言模型的跨语言编程能力。该数据集通过自指令生成、合成构造和机器翻译三种方法构建的30万条指令-代码对，为模型提供了丰富的孟加拉语编程语境学习样本，显著提升了模型对孟加拉语自然语言指令的理解和代码生成准确性。

解决学术问题

该数据集有效解决了低资源语言代码生成中的语料稀缺问题，填补了孟加拉语编程指令数据的空白。通过提供高质量的双语对齐数据，它支持了跨语言代码生成模型的训练与评估，推动了小参数模型在低资源语言任务上的性能突破，挑战了“仅规模驱动性能”的传统认知，为资源受限语言的NLP研究提供了新范式。

衍生相关工作

该数据集催生了MBPP-Bangla评估基准的构建，并衍生出TigerCoder模型家族系列研究。后续工作扩展到多语言代码生成评估框架开发，包括对C++、Java等五种编程语言的系统性支持，推动了低资源语言代码生成领域的标准化评估体系和跨语言迁移学习方法的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集