Code-170k-kanuri

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-kanuri

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-kanuri是一个包含176,999个编程对话的数据集，这些对话是从英文数据集翻译成Kanuri语言的，旨在使Kanuri语使用者能够接受编码教育。对话涵盖了多种编程概念，适用于训练Kanuri语言的编码助手、构建教育工具、进行多语种代码生成研究、创建Kanuri语编程教程以及支持低资源语言的AI开发。

创建时间：

2025-10-20

原始信息汇总

Code-170k-kanuri 数据集概述

数据集基本信息

数据集名称：Code-170k-kanuri
数据集地址：https://huggingface.co/datasets/michsethowusu/Code-170k-kanuri
语言：卡努里语（kr）
许可证：Apache 2.0
数据规模：100K<n<1M

数据集内容

数据量：包含176,999个编程对话
数据来源：基于glaiveai/glaive-code-assistant-v2数据集翻译为卡努里语
数据格式：多轮对话形式
主题范围：算法、数据结构、调试、最佳实践等编程概念

数据结构

数据字段

conversations：对话列表，每个对话包含：
- from：说话者（"human"或"gpt"）
- value：卡努里语的消息内容

数据拆分

训练集：176,999个样本，317,920,387字节

主要用途

训练卡努里语编程助手
构建卡努里开发者教育工具
多语言代码生成研究
创建卡努里语编程教程
支持低资源语言AI开发

技术特性

适用于文本生成和问答任务
支持大语言模型的指令调优
专为低资源语言设计
多语言编程教育支持

使用方式

python from datasets import load_dataset dataset = load_dataset("michsethowusu/Code-170k-kanuri")

搜集汇总

数据集介绍

构建方式

在促进编程教育多元化的背景下，Code-170k-kanuri数据集通过精心设计的多语言转换流程构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的17万条编程对话，经过系统化翻译处理，将原始英文内容准确转化为卡努里语。构建过程中严格保持对话结构和编程术语的专业性，形成包含17.7万对高质量问答的标准化语料库，为低资源语言社区的计算机教育奠定数据基础。

特点

作为面向低资源语言的人工智能语料，本数据集展现出鲜明的跨语言特征。其核心优势在于完整覆盖算法设计、数据结构、调试技巧等编程知识体系，全部以纯正卡努里语呈现。每个对话单元采用多轮交互模式，模拟真实编程辅导场景，既保留专业术语的准确性，又兼顾自然语言表达的流畅性。这种设计使数据集兼具教学价值与研究价值，特别适合开发面向特定语言群体的智能编程助手。

使用方法

在具体应用层面，研究者可通过Hugging Face生态系统快速加载数据集进行模型训练。使用load_dataset函数调用数据集后，开发者能直接获取结构化对话数据，其中每轮对话清晰标注发言者角色与对应内容。这种标准化格式便于无缝接入各类文本生成模型，特别适用于指令微调任务。教育机构则可利用这些对话数据构建本地化编程教学工具，推动卡努里语社区的计算机素养提升。

背景与挑战

背景概述

随着人工智能在编程教育领域的深入应用，多语言代码生成技术逐渐成为研究热点。Code-170k-kanuri数据集由研究团队于2025年构建，基于glaiveai/glaive-code-assistant-v2数据集进行跨语言迁移，专门面向非洲卡努里语使用者。该数据集聚焦于低资源语言环境下的编程教育普及，通过17.7万组高质量对话涵盖算法设计、数据结构及调试实践等核心编程概念，为卡努里语社区的数字化人才培养提供了关键语料支撑，显著推动了多语言代码助手的技术发展。

当前挑战

在编程教育领域，低资源语言的代码理解与生成长期面临语义对齐困难和技术资源匮乏的双重挑战。数据集构建过程中，专业编程术语的卡努里语等效翻译需要克服语言结构差异带来的表达歧义，同时需确保技术概念在文化语境中的准确传递。多轮对话结构的完整性维护要求精确控制对话逻辑连贯性，而低资源语言特性更增加了质量验证的复杂度，这些因素共同构成了该数据集建设的技术壁垒。

常用场景

经典使用场景

在低资源语言技术领域，Code-170k-kanuri数据集通过17万条编程对话的卡努里语翻译版本，为构建本土化代码助手提供了核心训练素材。这些多轮对话涵盖算法设计、数据结构实现及调试技巧等编程核心概念，使研究人员能够基于该数据集开展卡努里语代码生成模型的指令微调工作，有效填补了非洲语言在编程教育领域的资源空白。

实际应用

实际应用中，该数据集正被用于开发面向西非地区的智能编程教学系统，通过卡努里语交互界面帮助本土开发者跨越英语编程门槛。教育机构可基于此构建沉浸式编程课程，技术公司则能开发具备本地化代码审查能力的开发工具，显著提升卡努里语使用者在软件开发领域的参与度，促进区域数字人才培养。

衍生相关工作

受该数据集启发，研究社区已衍生出多个重要方向：包括基于跨语言迁移的卡努里语代码补全模型、融合文化语境的本土化编程教学模式，以及低资源语言大模型指令调优框架的改进。这些工作通过扩展原始数据集的应用边界，持续推动着多语言编程助手技术在语言学层面的深度适配与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集