Code-170k-kituba

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-kituba

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-kituba是一个包含176,999个编程对话的数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成基图巴语，使得编程教育对基图巴语使用者变得可行。数据集包含纯基图巴语的多人对话，涵盖各种编程概念，适用于大型语言模型的指令微调。

创建时间：

2025-10-20

原始信息汇总

Code-170k-kituba 数据集概述

基本信息

数据集名称: Code-170k-kituba
发布年份: 2025
发布平台: Hugging Face
许可证: Apache 2.0
语言: 基图巴语 (Kituba)
数据集规模: 100K<n<1M

数据集内容

数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译而成
数据量: 包含176,999个编程对话
数据格式: 多轮对话形式
数据大小:
- 下载大小: 174,948,381字节
- 数据集大小: 349,896,762字节

数据结构

特征字段

conversations: 对话列表，包含：
- from: 说话者身份（"human"或"gpt"）
- value: 基图巴语的消息内容

数据划分

训练集: 176,999个样本

应用领域

文本生成
问答系统
基图巴语编程助手训练
基图巴开发者教育工具开发
多语言代码生成研究
低资源语言AI开发

主题覆盖

算法
数据结构
调试
最佳实践
各种编程概念

技术特点

高质量编程对话
纯基图巴语言内容
支持大型语言模型指令调优
面向低资源语言开发

搜集汇总

数据集介绍

构建方式

在构建Code-170k-kituba数据集的过程中，研究团队从glaiveai/glaive-code-assistant-v2这一高质量编程对话数据源获取原始内容，通过专业翻译流程将其转化为基图巴语。该数据集包含176,999条多轮对话，每条对话均经过严格的语言转换和校对流程，确保编程概念在低资源语言环境中的准确表达。数据以结构化格式组织，每条记录包含人类提问与AI回复的完整对话序列，为基图巴语编程教育建立了坚实的语言资源基础。

特点

该数据集最显著的特征在于其全面覆盖编程知识领域，涵盖算法设计、数据结构、代码调试及最佳实践等核心主题。所有对话内容均采用纯正基图巴语呈现，通过多轮对话形式展现复杂的编程问题解决过程。作为专门针对低资源语言开发的编程数据集，它不仅填补了非洲语言在代码生成领域的空白，更具备直接用于大语言模型指令调优的完整结构，为跨语言编程教育提供了关键支撑。

使用方法

使用者可通过Hugging Face数据集库直接加载该资源，采用标准数据加载接口即可获取全部训练数据。数据集适用于构建基图巴语编程助手、开发教育工具及多语言代码生成研究等多个场景。每条数据以对话树形式存储，用户可遍历人类与模型的交互记录，灵活提取特定编程主题的对话内容，或直接用于训练面向基图巴语开发者的智能编程辅助系统。

背景与挑战

背景概述

随着人工智能技术在编程教育领域的深入应用，多语言代码助手的发展成为推动计算思维普及的关键环节。Code-170k-kituba数据集由研究团队于2025年构建，基于glaiveai/glaive-code-assistant-v2的原始数据，通过系统化翻译将17.7万组编程对话转化为基图巴语版本。该数据集致力于解决非洲语言群体在编程教育资源匮乏的问题，通过覆盖算法设计、数据结构及调试实践等多维度对话内容，为低资源语言社区的计算机教育平等化提供了重要支撑。

当前挑战

在编程教育领域，基图巴语等低资源语言长期面临技术术语体系缺失与语义表达规范不统一的困境。数据集构建过程中需克服双重挑战：其一，原始英语编程概念与基图巴语语言结构间的语义等效转换，要求保持技术准确性与自然语言流畅度的平衡；其二，对话数据的文化适配性处理，需确保编程案例与当地开发实践场景的契合度，这对翻译一致性与领域知识迁移提出了更高要求。

常用场景

经典使用场景

在编程教育领域，Code-170k-kituba数据集通过17.7万条基图巴语编程对话，为构建本土化智能编程助手提供了核心训练资源。其多轮对话结构覆盖算法设计、代码调试等完整编程流程，显著提升了低资源语言群体学习计算机科学的可及性。

衍生相关工作

受该数据集启发，研究界相继推出了Kituba-Coder等专用编程模型，并衍生出基图巴语与法语双语代码理解基准测试。这些工作进一步推动了《非洲语言技术白皮书》中关于本土化AI开发工具的标准化进程，形成跨学科的技术扩散效应。

数据集最近研究