Code-170k-kituba
收藏Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-kituba
下载链接
链接失效反馈官方服务:
资源简介:
Code-170k-kituba是一个包含176,999个编程对话的数据集,这些对话最初来源于glaiveai/glaive-code-assistant-v2,并翻译成基图巴语,使得编程教育对基图巴语使用者变得可行。数据集包含纯基图巴语的多人对话,涵盖各种编程概念,适用于大型语言模型的指令微调。
创建时间:
2025-10-20
原始信息汇总
Code-170k-kituba 数据集概述
基本信息
- 数据集名称: Code-170k-kituba
- 发布年份: 2025
- 发布平台: Hugging Face
- 许可证: Apache 2.0
- 语言: 基图巴语 (Kituba)
- 数据集规模: 100K<n<1M
数据集内容
- 数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译而成
- 数据量: 包含176,999个编程对话
- 数据格式: 多轮对话形式
- 数据大小:
- 下载大小: 174,948,381字节
- 数据集大小: 349,896,762字节
数据结构
特征字段
conversations: 对话列表,包含:from: 说话者身份("human"或"gpt")value: 基图巴语的消息内容
数据划分
- 训练集: 176,999个样本
应用领域
- 文本生成
- 问答系统
- 基图巴语编程助手训练
- 基图巴开发者教育工具开发
- 多语言代码生成研究
- 低资源语言AI开发
主题覆盖
- 算法
- 数据结构
- 调试
- 最佳实践
- 各种编程概念
技术特点
- 高质量编程对话
- 纯基图巴语言内容
- 支持大型语言模型指令调优
- 面向低资源语言开发
搜集汇总
数据集介绍

构建方式
在构建Code-170k-kituba数据集的过程中,研究团队从glaiveai/glaive-code-assistant-v2这一高质量编程对话数据源获取原始内容,通过专业翻译流程将其转化为基图巴语。该数据集包含176,999条多轮对话,每条对话均经过严格的语言转换和校对流程,确保编程概念在低资源语言环境中的准确表达。数据以结构化格式组织,每条记录包含人类提问与AI回复的完整对话序列,为基图巴语编程教育建立了坚实的语言资源基础。
特点
该数据集最显著的特征在于其全面覆盖编程知识领域,涵盖算法设计、数据结构、代码调试及最佳实践等核心主题。所有对话内容均采用纯正基图巴语呈现,通过多轮对话形式展现复杂的编程问题解决过程。作为专门针对低资源语言开发的编程数据集,它不仅填补了非洲语言在代码生成领域的空白,更具备直接用于大语言模型指令调优的完整结构,为跨语言编程教育提供了关键支撑。
使用方法
使用者可通过Hugging Face数据集库直接加载该资源,采用标准数据加载接口即可获取全部训练数据。数据集适用于构建基图巴语编程助手、开发教育工具及多语言代码生成研究等多个场景。每条数据以对话树形式存储,用户可遍历人类与模型的交互记录,灵活提取特定编程主题的对话内容,或直接用于训练面向基图巴语开发者的智能编程辅助系统。
背景与挑战
背景概述
随着人工智能技术在编程教育领域的深入应用,多语言代码助手的发展成为推动计算思维普及的关键环节。Code-170k-kituba数据集由研究团队于2025年构建,基于glaiveai/glaive-code-assistant-v2的原始数据,通过系统化翻译将17.7万组编程对话转化为基图巴语版本。该数据集致力于解决非洲语言群体在编程教育资源匮乏的问题,通过覆盖算法设计、数据结构及调试实践等多维度对话内容,为低资源语言社区的计算机教育平等化提供了重要支撑。
当前挑战
在编程教育领域,基图巴语等低资源语言长期面临技术术语体系缺失与语义表达规范不统一的困境。数据集构建过程中需克服双重挑战:其一,原始英语编程概念与基图巴语语言结构间的语义等效转换,要求保持技术准确性与自然语言流畅度的平衡;其二,对话数据的文化适配性处理,需确保编程案例与当地开发实践场景的契合度,这对翻译一致性与领域知识迁移提出了更高要求。
常用场景
经典使用场景
在编程教育领域,Code-170k-kituba数据集通过17.7万条基图巴语编程对话,为构建本土化智能编程助手提供了核心训练资源。其多轮对话结构覆盖算法设计、代码调试等完整编程流程,显著提升了低资源语言群体学习计算机科学的可及性。
衍生相关工作
受该数据集启发,研究界相继推出了Kituba-Coder等专用编程模型,并衍生出基图巴语与法语双语代码理解基准测试。这些工作进一步推动了《非洲语言技术白皮书》中关于本土化AI开发工具的标准化进程,形成跨学科的技术扩散效应。
数据集最近研究
最新研究方向
在低资源语言技术蓬勃发展的背景下,Code-170k-kituba数据集正推动非洲语言编程教育的前沿探索。当前研究聚焦于跨语言代码生成模型的指令微调,通过将17万条编程对话译为基图巴语,有效解决了该语言在人工智能领域的数据稀缺问题。这一举措不仅促进了数字包容性发展,更为构建多语言代码助手提供了关键训练资源,显著提升了基图巴语开发者的技术可及性。随着全球对语言多样性重视程度的提升,该数据集已成为研究语言技术公平性与教育资源普惠化的重要载体,为低资源语言在人工智能时代的可持续发展奠定了实践基础。
以上内容由遇见数据集搜集并总结生成



