Code-170k-luganda

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-luganda

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-luganda是一个包含176,999个编程对话的数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成卢干达语，使卢干达语使用者能够接触编程教育。数据集包含多轮对话，涵盖各种编程概念，话题多样，包括算法、数据结构、调试、最佳实践等，并且适用于大型语言模型的指令微调。

创建时间：

2025-10-20

原始信息汇总

Code-170k-luganda 数据集概述

基本信息

数据集名称: Code-170k-luganda
数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-luganda
许可证: Apache 2.0
语言: 卢干达语 (lg)

数据集规模

训练集样本数量: 176,999
训练集大小: 342,380,442 字节
下载大小: 171,190,221 字节

核心特征

数据格式: 编程对话数据集
对话轮次: 多轮对话结构
内容类型: 编程和编码相关对话
语言特征: 纯卢干达语内容

数据结构

数据字段

conversations: 对话列表
- from: 说话者身份 ("human" 或 "gpt")
- value: 卢干达语消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[卢干达语问题]" }, { "from": "gpt", "value": "[卢干达语回答]" } ] }

任务类别

文本生成
问答系统

数据集标签

代码
编程
卢干达语
非洲语言
低资源语言
多语言
指令调优

使用方式

python from datasets import load_dataset dataset = load_dataset("michsethowusu/Code-170k-luganda") train_data = dataset[train]

数据来源

基于 glaiveai/glaive-code-assistant-v2 数据集翻译为卢干达语

搜集汇总

数据集介绍

构建方式

在促进低资源语言技术发展的背景下，Code-170k-luganda数据集通过精心设计的数据转换流程构建而成。该数据集源自glaiveai/glaive-code-assistant-v2中的原始编程对话内容，经过系统性的翻译与本地化处理，将17万条高质量的编程问答转换为卢干达语。构建过程注重保持对话的连贯性与技术准确性，确保每轮对话均包含人类提问与模型回复的完整交互结构，为卢干达语编程教育提供了坚实的语料基础。

特点

作为面向低资源语言的技术语料库，该数据集展现出显著的多维度特征。其核心价值在于囊括了17.7万条纯卢干达语编程对话，覆盖算法设计、数据结构、调试技巧等多元技术主题。数据集采用多轮对话的序列化组织形式，每条记录均包含完整的对话轮次与角色标识，既保持了技术内容的专业性，又体现了自然语言交互的真实性。特别值得关注的是，该语料库专为指令调优场景优化，为开发卢干达语编程助手提供了关键训练资源。

使用方法

在具体应用层面，该数据集通过标准化的接口实现便捷调用。研究人员可使用HuggingFace数据集库直接加载完整语料，通过指定数据集路径即可获取包含17.7万条样本的训练集。典型应用流程包括加载数据集对象、访问训练分割数据以及迭代读取对话序列，每个对话轮次均清晰标注发言角色与卢干达语内容。这种设计使得该数据集能无缝接入现有自然语言处理流程，特别适用于构建卢干达语代码生成模型与智能教育工具。

背景与挑战

背景概述

随着人工智能在自然语言处理领域的蓬勃发展，低资源语言的技术支持逐渐成为研究热点。Code-170k-luganda数据集由研究团队于2025年构建，旨在通过将17.6万条编程对话翻译为卢干达语，推动该语言在代码生成与教育工具开发中的应用。这一工作不仅填补了非洲语言在编程教育资源的空白，更为多语言代码助手的研究提供了关键数据基础，对促进语言多样性及教育公平具有深远意义。

当前挑战

在编程教育领域，低资源语言常面临技术文档稀缺与模型训练数据不足的困境。Code-170k-luganda需解决卢干达语专业术语的准确翻译与编程概念的本地化表达问题，同时确保多轮对话的逻辑连贯性。数据集构建过程中，团队需克服卢干达语数字语言资源有限、语法结构特殊等障碍，并通过高质量人工校验保障翻译的准确性与教育实用性。

常用场景

经典使用场景

在低资源语言技术领域，该数据集为训练卢干达语编程助手提供了核心支持。通过包含17.7万条高质量编程对话，它能够有效构建多轮对话系统，覆盖算法设计、数据结构实现及代码调试等关键编程概念，显著提升了模型在卢干达语环境下的代码生成与问题解答能力。

衍生相关工作

该数据集催生了系列低资源语言技术研究，包括基于多语言指令微调的大语言模型优化、卢干达语代码语义解析系统等创新工作。相关研究进一步拓展至斯瓦希里语、约鲁巴语等非洲语言的技术适配，形成了低资源语言编程教育的系统性解决方案，为全球语言技术多样性研究提供了范式参考。

数据集最近研究