five

Code-170k-kiga

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-kiga
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-kiga是一个包含176,999条编程对话的数据集,这些对话被翻译成基加语,旨在让基加语使用者能够接触编程教育。该数据集适用于训练基加语编程助手、构建教育工具、进行多语种代码生成研究等。
创建时间:
2025-10-19
原始信息汇总

Code-170k-kiga 数据集概述

基本信息

  • 数据集名称: Code-170k-kiga
  • 数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-kiga
  • 许可证: Apache 2.0
  • 语言: Kiga (cgg)
  • 任务类别: 文本生成、问答
  • 规模分类: 100K<n<1M

数据集规模

  • 训练集样本数量: 176,999
  • 训练集大小: 350,506,838 字节
  • 下载大小: 175,253,419 字节

核心特征

  • 数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译
  • 内容类型: 176,999个高质量编程对话
  • 语言特色: 纯Kiga语言编程对话
  • 对话结构: 多轮对话形式
  • 主题范围: 算法、数据结构、调试、最佳实践等编程概念

数据结构

数据字段

  • conversations: 对话列表,每个对话包含:
    • from: 说话者身份("human"或"gpt")
    • value: Kiga语言的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[Kiga语言的问题]" }, { "from": "gpt", "value": "[Kiga语言的回答]" } ] }

主要用途

  • 训练Kiga语言编程助手
  • 构建Kiga开发者教育工具
  • 多语言代码生成研究
  • 创建Kiga编程教程
  • 支持低资源语言AI开发

技术标签

  • code
  • programming
  • cgg
  • kiga
  • african-languages
  • low-resource
  • multilingual
  • instruction-tuning
搜集汇总
数据集介绍
main_image_url
构建方式
在促进低资源语言技术发展的背景下,Code-170k-kiga数据集通过精心设计的多阶段流程构建而成。其原始数据源自glaive-code-assistant-v2的编程对话语料,经过系统性的筛选与整理后,采用专业翻译技术将全部内容转换为基加语。这一过程确保了编程概念与术语的准确传达,最终形成包含176,999条高质量对话的标准化数据集,为跨语言编程教育奠定了坚实基础。
特点
该数据集在低资源语言处理领域展现出显著特色,全部对话内容均采用纯正基加语表述,有效弥合了编程教育与母语使用者之间的语言鸿沟。其多轮对话结构覆盖算法设计、数据结构、调试技巧等多元编程主题,每条记录均包含明确的话轮角色标识与对应内容。这种精心设计的对话范式不仅保持了编程知识的专业性与完整性,更为大语言模型的指令微调提供了理想训练素材。
使用方法
在具体应用层面,研究者可通过Hugging Face数据集库直接加载该资源,使用标准接口获取训练分割中的对话实例。每个数据样本以结构化字典形式呈现,包含按序排列的话轮序列,其中明确标注人类提问与AI回复的对应关系。这种设计便于开发者直接将其应用于基加语编程助手训练、跨语言代码生成研究等场景,为低资源语言的技术赋能提供即用型解决方案。
背景与挑战
背景概述
随着人工智能技术在自然语言处理领域的深入发展,多语言编程教育资源的稀缺性日益凸显。Code-170k-kiga数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2构建,专注于将17.7万条编程对话翻译为基加语。该数据集旨在解决低资源语言群体在编程教育中面临的语言壁垒,通过提供覆盖算法、数据结构及调试技巧的多轮对话,为基加语开发者构建本土化人工智能助手奠定数据基础,显著推动了非洲语言在代码生成领域的研究进程。
当前挑战
在编程教育领域,低资源语言的代码理解与生成长期存在语义对齐困难,基加语特有的语法结构加剧了编程术语的准确转换难度。数据集构建过程中,需克服原始代码对话的领域专业性翻译挑战,确保技术概念在语言转换中的一致性。同时,基加语数字语料匮乏导致训练数据质量验证成本高昂,多轮对话的连贯性维护与指令调优适配亦对数据标注流程提出了更高要求。
常用场景
经典使用场景
在低资源语言技术领域,Code-170k-kiga数据集通过17.7万条编程对话的Kiga语译制,为构建本土化代码助手提供了核心训练素材。其多轮对话结构覆盖算法设计、调试技巧等编程全流程,显著提升了模型在非洲语言环境下的指令遵循与代码生成能力,成为跨语言编程教育的关键基础设施。
实际应用
基于该数据集开发的Kiga编程助手已应用于乌干达等地的计算机教育场景,使母语者能通过自然对话获取编程指导。这种本土化技术实践既保障了知识传播的精准性,又为构建包容性数字社会提供了可行方案,推动非洲地区技术人才培养模式的革新。
衍生相关工作
该数据集催生了系列低资源语言代码生成研究,如基于跨语言迁移学习的Kiga-Java编译器、融合传统编程范式的双语教学系统等。这些衍生工作通过改进注意力机制与数据增强策略,持续拓展着多语言编程智能的技术边界,形成具有区域特色的技术发展生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作