Code-170k-bambara
收藏Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-bambara
下载链接
链接失效反馈官方服务:
资源简介:
Code-170k-bambara 是一个包含 176,999 次关于编程的对话的数据集,这些对话最初来源于 glaiveai/glaive-code-assistant-v2 并翻译成班巴拉语,使班巴拉语使用者能够接触编程教育。
Code-170k-bambara is a dataset containing 176,999 programming-related conversations. Originally sourced from glaiveai/glaive-code-assistant-v2, these conversations have been translated into Bambara to make programming education accessible to Bambara speakers.
创建时间:
2025-10-19
原始信息汇总
Code-170k-bambara 数据集概述
基本信息
- 数据集名称: Code-170k-bambara
- 数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-bambara
- 许可证: Apache 2.0
- 语言: 班巴拉语 (bm)
- 任务类别: 文本生成、问答
- 规模分类: 100K<n<1M
数据集规模
- 训练集样本数量: 176,999
- 训练集大小: 349,732,397 字节
- 下载大小: 174,866,198 字节
核心特征
- 数据内容: 176,999 个高质量编程对话
- 语言: 纯班巴拉语
- 对话类型: 多轮对话
- 主题范围: 算法、数据结构、调试、最佳实践等编程概念
- 适用场景: 大型语言模型的指令调优
数据结构
数据字段
conversations: 对话轮次列表from: 发言者("human" 或 "gpt")value: 班巴拉语的消息内容
数据示例
python { "conversations": [ { "from": "human", "value": "[班巴拉语问题]" }, { "from": "gpt", "value": "[班巴拉语回答]" } ] }
主要用途
- 训练班巴拉语编程助手
- 为班巴拉开发者构建教育工具
- 多语言代码生成研究
- 创建班巴拉语编程教程
- 支持低资源语言人工智能开发
数据来源
- 原始数据来源: glaiveai/glaive-code-assistant-v2
- 翻译处理: 翻译为班巴拉语
引用格式
bibtex @dataset{code170k_bambara, title={Code-170k-bambara: Programming Conversations in Bambara}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-bambara} }
搜集汇总
数据集介绍

构建方式
在促进非洲语言技术发展的背景下,Code-170k-bambara数据集通过精心设计的翻译流程构建而成。原始数据源自glaiveai/glaive-code-assistant-v2,包含大量编程对话,随后由专业团队将其高质量地翻译为班巴拉语。这一过程确保了语言的自然流畅与技术术语的准确性,最终形成包含176,999条对话的大规模语料,为低资源语言社区提供了宝贵的编程教育资源。
特点
该数据集以其独特的语言覆盖和丰富的内容结构脱颖而出。全部对话均采用纯班巴拉语呈现,涵盖算法设计、数据结构、调试技巧及编程最佳实践等多元主题。每条记录均以多轮对话形式组织,清晰标注人类提问与AI回复的交互过程。这种设计不仅支持指令调优任务,更为研究多语言代码生成提供了理想实验平台,显著提升了低资源语言在人工智能领域的代表性。
使用方法
研究人员可通过Hugging Face生态系统便捷地加载与应用该数据集。使用datasets库的load_dataset函数即可直接访问训练分割,其中包含全部17万余条对话样本。每条数据以结构化字典形式存储,conversations字段内按序排列对话轮次,from字段标识发言者角色,value字段则对应具体对话内容。这种标准化格式特别适用于训练班巴拉语编程助手、开发教育工具及进行跨语言自然语言处理研究。
背景与挑战
背景概述
随着人工智能在代码生成领域的深入发展,多语言编程教育资源的稀缺性日益凸显。Code-170k-bambara数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2构建,通过将17.7万条编程对话翻译为班巴拉语,致力于解决低资源语言群体在计算机科学教育中的语言障碍。该数据集覆盖算法设计、数据结构及调试实践等核心编程概念,为西非地区以班巴拉语为母语的学习者提供了本土化学习材料,显著推动了跨语言代码生成技术在教育公平领域的应用。
当前挑战
构建过程面临双重挑战:在领域问题层面,需克服低资源语言代码数据稀缺性导致的语义对齐困难,确保编程术语在班巴拉语中的准确表达;技术实现中,需处理多轮对话结构的完整性保留,以及翻译过程中编程逻辑一致性的维护。此外,文化语境适配与机器学习模型对非洲语言结构理解不足,进一步增加了高质量数据生成的复杂度。
常用场景
经典使用场景
在低资源语言技术发展的背景下,Code-170k-bambara数据集为构建班巴拉语编程助手提供了核心训练素材。其多轮对话结构能够模拟真实编程教学场景,涵盖算法设计、数据结构实现及代码调试等关键环节,显著提升了模型对编程概念的语义理解能力。
实际应用
班巴拉语地区的编程教育机构可借助该数据集开发本土化智能教学系统,实现编程概念的母语化阐释。技术企业能据此构建本地化开发工具链,降低母语者的编程入门门槛,为西非地区数字人才培养提供基础设施支持。
衍生相关工作
基于该数据集衍生的班巴拉语代码生成模型已成为多语言编程助手研究的重要基线,启发了针对豪萨语、斯瓦希里语等非洲语言的类似语料构建工作。其数据构造范式被拓展至法律文本、医疗咨询等专业领域,形成了低资源语言技术赋权的示范性研究路径。
以上内容由遇见数据集搜集并总结生成



