Code-170k-kikongo

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-kikongo

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-kikongo是一个包含176,999个编程对话的数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成基孔戈语，使基孔戈语使用者能够接触编码教育。该数据集包含纯基孔戈语的多人对话，涵盖各种编程概念，适用于大型语言模型的指令调整。

创建时间：

2025-10-20

原始信息汇总

Code-170k-kikongo 数据集概述

基本信息

数据集名称: Code-170k-kikongo
发布年份: 2025
发布平台: Hugging Face
许可证: Apache 2.0
语言: 基孔戈语 (kg)

数据集规模

训练集样本数量: 176,999
训练集大小: 357,328,472 字节
下载大小: 178,664,236 字节
规模分类: 100K<n<1M

数据特征

数据结构

主要字段: conversations
对话轮次结构:
- from: 说话者身份（"human" 或 "gpt"）
- value: 基孔戈语消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[基孔戈语问题]" }, { "from": "gpt", "value": "[基孔戈语回答]" } ] }

数据集特点

内容类型: 编程对话和代码相关对话
翻译来源: 基于 glaiveai/glaive-code-assistant-v2 数据集翻译
语言特性: 纯基孔戈语内容
对话形式: 多轮对话
主题范围: 算法、数据结构、调试、最佳实践等编程概念

任务类别

文本生成
问答系统

应用场景

训练基孔戈语编程助手
构建基孔戈开发者教育工具
多语言代码生成研究
基孔戈语编程教程创建
低资源语言人工智能开发支持

技术标签

code
programming
kg
kikongo
african-languages
low-resource
multilingual
instruction-tuning

引用格式

bibtex @dataset{code170k_kikongo, title={Code-170k-kikongo: Programming Conversations in Kikongo}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-kikongo} }

搜集汇总

数据集介绍

构建方式

在编程教育资源稀缺的非洲语言背景下，Code-170k-kikongo数据集通过系统化翻译流程构建而成。其原始数据源自glaive-code-assistant-v2的17.7万组编程对话，经由专业语言技术团队将其完整转化为刚果盆地广泛使用的基孔果语。该构建过程严格遵循多轮对话结构保留原则，确保算法讨论、代码调试等专业技术内容在语言转换过程中的语义准确性，最终形成具有完整对话轮次结构的标准化语料库。

特点

作为低资源语言技术生态的重要突破，该数据集呈现出鲜明的多维度特征。其核心价值体现在纯基孔果语编程对话的规模化覆盖，不仅包含数据结构、算法实现等基础概念，更涉及软件开发全生命周期的技术讨论。数据集采用人机对话的交互式结构，每个对话单元均标注发言者身份与对应内容，这种设计既保留了原始语料的技术深度，又为模型训练提供了丰富的语境信息。特别值得注意的是，该资源精准定位于指令微调场景，为非洲本土语言人工智能的发展提供了关键数据支撑。

使用方法

针对多语言代码生成的研究需求，该数据集可通过标准数据加载接口快速接入机器学习流程。研究人员使用Hugging Face生态的datasets库即可直接加载完整数据，通过指定训练分割获取全部17.7万组对话实例。典型应用场景包括构建基孔果语编程助手、开发跨语言代码教育工具等，每段对话中的from字段与value字段共同构成完整的指令-响应训练对。这种即用型数据结构显著降低了低资源语言NLP研究的工程门槛，为促进技术包容性提供了实践基础。

背景与挑战

背景概述

在数字时代语言资源公平性日益受到关注的背景下，Code-170k-kikongo数据集于2025年由Hugging Face平台发布，旨在解决非洲语言在编程教育领域的资源匮乏问题。该数据集基于glaiveai/glaive-code-assistant-v2的原始对话数据，通过系统化翻译构建了17.7万条基孔果语编程对话，覆盖算法设计、数据结构及调试实践等核心编程概念。作为首个面向基孔果语的大规模代码指令数据集，它不仅推动了低资源语言与计算技术的融合，更为跨语言代码生成研究提供了关键基础设施。

当前挑战

该数据集致力于攻克低资源语言编程辅助的核心难题：基孔果语作为口语主导语言，缺乏标准化技术术语体系，导致代码语义精确转换面临挑战；多轮对话中编程逻辑与自然语言表达的耦合性，要求翻译过程同时保持技术准确性与语境连贯性。在构建层面，原始英语编程数据包含大量文化特定隐喻与缩写，需通过语言学专家与程序员的协同标注实现概念的本土化重构；对话结构的异构性也要求设计动态对齐机制，确保指令-响应序列在语言转换后仍保持编程教学有效性。

常用场景

经典使用场景

在编程教育领域，Code-170k-kikongo数据集通过17万条高质量对话，为刚果语使用者构建了系统的编程知识体系。这些多轮对话覆盖算法设计、数据结构实现及调试技巧等核心主题，成为训练本土化代码助手的关键资源。其精心设计的问答结构模拟真实教学场景，使学习者能够循序渐进掌握编程逻辑与工程实践。

衍生相关工作

受该数据集启发，研究社区已衍生出多个创新方向。包括基于对比学习的刚果语-代码对齐模型、融合文化语境的多模态编程教程生成系统等。这些工作进一步拓展了低资源语言技术在STEM教育中的应用边界，形成了从数据构建到模型优化的完整技术链条，为其他濒危语言的数字化保护提供了可复用的方法论。

数据集最近研究