Code-170k-xhosa
收藏Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-xhosa
下载链接
链接失效反馈官方服务:
资源简介:
Code-170k-xhosa是一个包含176,999个编程对话的数据集,这些对话已被翻译成Xhosa语,使得编码教育对Xhosa语使用者更加 accessible。它包含关于编程的高质量多轮对话,话题涵盖算法、数据结构、调试、最佳实践等,适用于指令微调大型语言模型。
创建时间:
2025-10-20
原始信息汇总
Code-170k-xhosa 数据集概述
基本信息
- 数据集名称: Code-170k-xhosa
- 发布年份: 2025
- 发布平台: Hugging Face
- 许可证: Apache 2.0
- 语言: 科萨语 (xh)
数据集规模
- 训练集样本数量: 176,999
- 训练集大小: 326,591,607 字节
- 下载大小: 163,295,803 字节
- 规模分类: 100K<n<1M
数据特征
- 任务类别: 文本生成、问答
- 数据类型: 编程对话
- 标签: 代码、编程、科萨语、非洲语言、低资源、多语言、指令调优
数据结构
数据字段
conversations: 对话轮次列表from: 说话者身份("human" 或 "gpt")value: 科萨语消息内容
数据示例
python { "conversations": [ { "from": "human", "value": "[科萨语问题]" }, { "from": "gpt", "value": "[科萨语回答]" } ] }
数据集特点
- 高质量编程对话: 176,999 个关于编程和编码的对话
- 纯科萨语: 使编程教育民主化
- 多轮对话: 涵盖各种编程概念
- 多样化主题: 算法、数据结构、调试、最佳实践等
- 适用于指令调优: 可用于大型语言模型的指令调优
使用场景
- 训练科萨语编码助手
- 为科萨开发者构建教育工具
- 研究多语言代码生成
- 创建科萨语编程教程
- 支持低资源语言人工智能开发
数据来源
基于 glaiveai/glaive-code-assistant-v2 数据集翻译为科萨语
搜集汇总
数据集介绍

构建方式
在编程教育领域,Code-170k-xhosa数据集通过创新性的跨语言转换方法构建而成。其基础源自glaiveai/glaive-code-assistant-v2的原始编程对话数据,经过专业翻译流程将内容完整转化为科萨语。构建过程中严格保持多轮对话结构,确保每个对话回合的提问与回答均呈现完整的语义对应关系,最终形成包含176,999条高质量样本的标准化数据集。
特点
该数据集最显著的特征在于其语言资源的稀缺性与专业性并存。作为目前规模最大的科萨语编程对话资源,它完整覆盖算法设计、数据结构、代码调试等核心编程知识领域。所有对话均采用纯科萨语表述,既保留了原始技术内容的精确性,又融入了本土语言的文化特质。数据组织形式采用多轮对话结构,为低资源语言环境下的机器学习模型训练提供了丰富语境。
使用方法
在技术应用层面,研究者可通过Hugging Face生态系统的标准接口直接加载该数据集。使用load_dataset函数调用数据集标识符后,即可访问训练集中的对话序列。每个数据样本以结构化字典形式呈现,包含由人类提问与AI回复组成的对话流。这种设计使得数据集能够无缝接入现有的大语言模型训练流程,特别适用于指令微调和跨语言代码生成任务的研究与开发。
背景与挑战
背景概述
在低资源语言人工智能发展的背景下,Code-170k-xhosa数据集于2025年由研究社区构建,旨在解决科萨语编程教育资源的稀缺性问题。该数据集基于glaiveai/glaive-code-assistant-v2的原始对话数据,通过专业翻译转化为17.7万条科萨语编程对话,覆盖算法设计、数据结构及调试技术等核心编程概念。作为首个大规模科萨语代码指令数据集,它为非洲语言群体的技术赋能提供了关键基础设施,显著推动了多语言代码生成与教育公平领域的研究进程。
当前挑战
构建过程面临双重挑战:在领域问题层面,需克服低资源语言代码语义对齐的复杂性,确保科萨语术语能准确传达编程逻辑的抽象概念;在技术实现层面,翻译工作需保持对话轮次间的连贯性,同时处理编程专有名词在科萨语中的本地化表达。此外,数据质量验证涉及跨语言代码功能一致性校验,这对人工标注与自动化检测流程提出了更高要求。
常用场景
经典使用场景
在低资源语言技术发展的背景下,Code-170k-xhosa数据集最经典的使用场景是作为训练材料,用于构建科萨语编程助手模型。该数据集通过17万条高质量的编程对话,覆盖算法设计、数据结构实现及代码调试等核心编程概念,为自然语言处理领域提供了珍贵的多轮对话语料。研究人员可基于这些数据开展指令微调实验,显著提升模型在科萨语环境下的代码生成与问题解答能力。
解决学术问题
该数据集有效缓解了非洲语言在编程教育领域的数据稀缺问题,为多语言代码生成研究提供了关键支撑。通过将复杂的编程知识转化为科萨语对话,它打破了英语主导的技术学习壁垒,推动了计算语言学的跨文化应用。学术界可借此探索低资源语言的语义理解机制,同时为构建包容性人工智能系统奠定理论基础,对促进语言技术公平发展具有深远意义。
衍生相关工作
该数据集已催生多项跨语言技术研究的经典工作,包括基于迁移学习的低资源语言模型微调框架,以及面向非洲语言的代码语义解析器开发。研究者通过对比原始英语数据集与科萨语译本的性能差异,进一步优化了多语言对齐算法。这些衍生成果不仅丰富了语言资源建设的方法论,更为联合国可持续发展目标中的数字包容性提供了技术实现路径。
以上内容由遇见数据集搜集并总结生成



