Code-170k-sango
收藏Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-sango
下载链接
链接失效反馈官方服务:
资源简介:
Code-170k-sango是一个包含176,999个编程对话的数据集,这些对话被翻译成了桑戈语,旨在使编码教育对桑戈语使用者更加容易获取。数据集覆盖了多种编程概念,并适用于训练桑戈语编程助手、构建教育工具等多种场景。
Code-170k-sango is a dataset consisting of 176,999 programming conversations translated into Sango, aiming to make coding education more accessible to Sango-speaking users. The dataset covers a wide range of programming concepts and is applicable to multiple scenarios such as training Sango-language programming assistants and building educational tools.
创建时间:
2025-10-20
原始信息汇总
Code-170k-sango 数据集概述
基本信息
- 数据集名称: Code-170k-sango
- 数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-sango
- 许可证: Apache 2.0
- 语言: 桑戈语 (sg)
- 规模分类: 100K<n<1M
数据集描述
Code-170k-sango 是一个包含 176,999 个编程对话的开创性数据集,原始数据来源于 glaiveai/glaive-code-assistant-v2,并翻译为桑戈语,使桑戈语使用者能够获得编程教育。
关键特性
- 176,999 个高质量对话,涵盖编程和编码主题
- 纯桑戈语 - 普及编程教育
- 多轮对话,涵盖各种编程概念
- 多样化主题: 算法、数据结构、调试、最佳实践等
- 适用于大型语言模型的指令调优
数据集结构
数据特征
- conversations: 对话轮次列表,每个轮次包含:
- from: 说话者 ("human" 或 "gpt")
- value: 桑戈语的消息内容
数据分割
- 训练集: 176,999 个样本,366,641,640 字节
数据示例
python { "conversations": [ { "from": "human", "value": "[桑戈语问题]" }, { "from": "gpt", "value": "[桑戈语回答]" } ] }
应用场景
- 训练桑戈语编码助手
- 为桑戈开发者构建教育工具
- 研究多语言代码生成
- 创建桑戈语编程教程
- 支持低资源语言AI开发
技术分类
- 任务类别: 文本生成、问答
- 标签: 代码、编程、桑戈语、非洲语言、低资源、多语言、指令调优
引用格式
bibtex @dataset{code170k_sango, title={Code-170k-sango: Programming Conversations in Sango}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-sango} }
搜集汇总
数据集介绍

构建方式
在构建Code-170k-sango数据集的过程中,研究团队采纳了glaiveai/glaive-code-assistant-v2作为原始数据源,通过专业翻译流程将其中的编程对话内容转化为桑戈语。这一过程不仅确保了语言转换的准确性,还保留了原始编程问题的技术复杂性和教学价值,最终形成了包含176,999条高质量对话的大规模语料库。
特点
该数据集最显著的特点在于其全面覆盖编程教育领域的多维对话场景,涵盖算法设计、数据结构应用、代码调试及开发规范等核心主题。每条数据均以多轮对话形式呈现,严格区分人类提问与AI回复的角色标签,为低资源语言环境下的技术教育提供了丰富的语义素材。
使用方法
使用者可通过Hugging Face标准接口加载数据集,利用其对话结构进行桑戈语编程助手的指令微调训练。数据字段中的conversations列表清晰标注了对话轮次与参与者角色,支持直接应用于文本生成模型的训练流程,为跨语言代码生成研究提供标准化数据支撑。
背景与挑战
背景概述
随着人工智能技术在代码生成领域的快速发展,多语言编程教育资源的匮乏成为制约技术普及的关键因素。Code-170k-sango数据集应运而生,由研究团队基于glaiveai/glaive-code-assistant-v2数据集于2025年构建,通过将17.7万组编程对话翻译为桑戈语,致力于解决低资源语言群体在编程教育中面临的语言壁垒。该数据集覆盖算法设计、数据结构及调试实践等核心编程概念,为桑戈语开发者提供了首个大规模指令调优资源,显著推动了非洲语言在代码智能辅助系统中的应用进程。
当前挑战
在编程教育领域,低资源语言的代码理解与生成长期存在语义对齐困难和技术术语缺失的挑战。Code-170k-sango构建过程中需克服双重障碍:一方面需保持编程逻辑的精确性,确保桑戈语术语与计算机科学概念的等效映射;另一方面面临低资源语言语料稀缺导致的翻译一致性难题,需通过多轮迭代验证对话结构的完整性。这些挑战凸显了在语言多样性背景下构建高质量代码数据集的复杂性。
常用场景
经典使用场景
在低资源语言技术发展领域,Code-170k-sango数据集通过17万余条桑戈语编程对话,为构建本土化代码助手提供了核心训练素材。其多轮对话结构覆盖算法实现、调试技巧等编程全流程,显著提升了桑戈语开发者的技术学习效率,成为跨语言代码生成研究的重要基准。
解决学术问题
该数据集有效缓解了非洲语言在编程教育领域的资源匮乏问题,为多语言代码生成模型提供了稀缺的平行语料。通过将高质量编程问答转化为桑戈语,不仅填补了低资源语言技术生态的空白,更推动了语言技术在教育公平领域的实践探索,为全球数字包容性研究提供了关键数据支撑。
衍生相关工作
受该数据集启发,研究社区已衍生出多项创新工作。包括基于迁移学习的多语言代码生成框架、面向低资源语言的课程学习策略,以及结合符号推理的混合模型架构。这些研究不仅扩展了原始数据集的应用边界,更为资源受限语言的AI发展提供了可复现的技术范式。
以上内容由遇见数据集搜集并总结生成



