five

Code-170k-luganda

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-luganda
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-luganda是一个包含176,999个编程对话的数据集,这些对话最初来源于glaiveai/glaive-code-assistant-v2,并翻译成卢干达语,使卢干达语使用者能够接触编程教育。数据集包含多轮对话,涵盖各种编程概念,话题多样,包括算法、数据结构、调试、最佳实践等,并且适用于大型语言模型的指令微调。
创建时间:
2025-10-20
原始信息汇总

Code-170k-luganda 数据集概述

基本信息

  • 数据集名称: Code-170k-luganda
  • 数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-luganda
  • 许可证: Apache 2.0
  • 语言: 卢干达语 (lg)

数据集规模

  • 训练集样本数量: 176,999
  • 训练集大小: 342,380,442 字节
  • 下载大小: 171,190,221 字节

核心特征

  • 数据格式: 编程对话数据集
  • 对话轮次: 多轮对话结构
  • 内容类型: 编程和编码相关对话
  • 语言特征: 纯卢干达语内容

数据结构

数据字段

  • conversations: 对话列表
    • from: 说话者身份 ("human" 或 "gpt")
    • value: 卢干达语消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[卢干达语问题]" }, { "from": "gpt", "value": "[卢干达语回答]" } ] }

任务类别

  • 文本生成
  • 问答系统

数据集标签

  • 代码
  • 编程
  • 卢干达语
  • 非洲语言
  • 低资源语言
  • 多语言
  • 指令调优

使用方式

python from datasets import load_dataset dataset = load_dataset("michsethowusu/Code-170k-luganda") train_data = dataset[train]

数据来源

基于 glaiveai/glaive-code-assistant-v2 数据集翻译为卢干达语

搜集汇总
数据集介绍
main_image_url
构建方式
在促进低资源语言技术发展的背景下,Code-170k-luganda数据集通过精心设计的数据转换流程构建而成。该数据集源自glaiveai/glaive-code-assistant-v2中的原始编程对话内容,经过系统性的翻译与本地化处理,将17万条高质量的编程问答转换为卢干达语。构建过程注重保持对话的连贯性与技术准确性,确保每轮对话均包含人类提问与模型回复的完整交互结构,为卢干达语编程教育提供了坚实的语料基础。
特点
作为面向低资源语言的技术语料库,该数据集展现出显著的多维度特征。其核心价值在于囊括了17.7万条纯卢干达语编程对话,覆盖算法设计、数据结构、调试技巧等多元技术主题。数据集采用多轮对话的序列化组织形式,每条记录均包含完整的对话轮次与角色标识,既保持了技术内容的专业性,又体现了自然语言交互的真实性。特别值得关注的是,该语料库专为指令调优场景优化,为开发卢干达语编程助手提供了关键训练资源。
使用方法
在具体应用层面,该数据集通过标准化的接口实现便捷调用。研究人员可使用HuggingFace数据集库直接加载完整语料,通过指定数据集路径即可获取包含17.7万条样本的训练集。典型应用流程包括加载数据集对象、访问训练分割数据以及迭代读取对话序列,每个对话轮次均清晰标注发言角色与卢干达语内容。这种设计使得该数据集能无缝接入现有自然语言处理流程,特别适用于构建卢干达语代码生成模型与智能教育工具。
背景与挑战
背景概述
随着人工智能在自然语言处理领域的蓬勃发展,低资源语言的技术支持逐渐成为研究热点。Code-170k-luganda数据集由研究团队于2025年构建,旨在通过将17.6万条编程对话翻译为卢干达语,推动该语言在代码生成与教育工具开发中的应用。这一工作不仅填补了非洲语言在编程教育资源的空白,更为多语言代码助手的研究提供了关键数据基础,对促进语言多样性及教育公平具有深远意义。
当前挑战
在编程教育领域,低资源语言常面临技术文档稀缺与模型训练数据不足的困境。Code-170k-luganda需解决卢干达语专业术语的准确翻译与编程概念的本地化表达问题,同时确保多轮对话的逻辑连贯性。数据集构建过程中,团队需克服卢干达语数字语言资源有限、语法结构特殊等障碍,并通过高质量人工校验保障翻译的准确性与教育实用性。
常用场景
经典使用场景
在低资源语言技术领域,该数据集为训练卢干达语编程助手提供了核心支持。通过包含17.7万条高质量编程对话,它能够有效构建多轮对话系统,覆盖算法设计、数据结构实现及代码调试等关键编程概念,显著提升了模型在卢干达语环境下的代码生成与问题解答能力。
衍生相关工作
该数据集催生了系列低资源语言技术研究,包括基于多语言指令微调的大语言模型优化、卢干达语代码语义解析系统等创新工作。相关研究进一步拓展至斯瓦希里语、约鲁巴语等非洲语言的技术适配,形成了低资源语言编程教育的系统性解决方案,为全球语言技术多样性研究提供了范式参考。
数据集最近研究
最新研究方向
在低资源语言技术发展领域,Code-170k-luganda数据集正推动跨语言编程教育的革新。该数据集将17万编程对话译为卢干达语,为非洲语言社区构建了首个大规模代码指令数据集,显著缓解了技术教育资源不平等问题。当前研究聚焦于多语言代码生成模型的指令微调,探索低资源语言在算法解释、调试辅助等场景的实用化路径。随着全球数字包容性议题升温,此类工作不仅助力保存语言多样性,更为构建本土化人工智能教育工具提供了关键数据基石,对弥合技术鸿沟具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作