Code-170k-swahili
收藏Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-swahili
下载链接
链接失效反馈官方服务:
资源简介:
Code-170k-swahili是一个包含176,999个编程对话的数据集,这些对话最初来源于glaiveai/glaive-code-assistant-v2,并翻译成斯瓦希里语,使得编码教育对斯瓦希里语使用者更加普及。它包含纯斯瓦希里语的多人对话,涵盖各种编程概念,适用于大型语言模型的指令微调。
创建时间:
2025-10-20
原始信息汇总
Code-170k-swahili 数据集概述
数据集基本信息
- 数据集名称: Code-170k-swahili
- 数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-swahili
- 许可证: Apache 2.0
- 语言: 斯瓦希里语 (sw)
- 规模分类: 100K<n<1M
数据集规模
- 训练集样本数量: 176,999
- 训练集大小: 326,382,592 字节
- 下载大小: 163,191,296 字节
数据集特征
数据字段
conversations: 对话列表,每个对话包含:from: 说话者("human" 或 "gpt")value: 斯瓦希里语的消息内容
数据示例
python { "conversations": [ { "from": "human", "value": "[斯瓦希里语的问题]" }, { "from": "gpt", "value": "[斯瓦希里语的回答]" } ] }
数据集特点
- 数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译为斯瓦希里语
- 内容类型: 176,999个高质量编程对话
- 对话形式: 多轮对话,涵盖各种编程概念
- 主题范围: 算法、数据结构、调试、最佳实践等
任务类别
- 文本生成
- 问答系统
标签
- 代码
- 编程
- 斯瓦希里语
- 非洲语言
- 低资源语言
- 多语言
- 指令调优
主要用途
- 训练斯瓦希里语编程助手
- 为斯瓦希里语开发者构建教育工具
- 多语言代码生成研究
- 创建斯瓦希里语编程教程
- 支持低资源语言AI开发
引用格式
bibtex @dataset{code170k_swahili, title={Code-170k-swahili: Programming Conversations in Swahili}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-swahili} }
搜集汇总
数据集介绍

构建方式
在编程教育资源稀缺的背景下,Code-170k-swahili数据集通过创新性的跨语言转换方法构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话语料,经过专业翻译流程将17万条高质量编程对话精准转化为斯瓦希里语。这种构建策略不仅保留了原始数据的技术准确性,还确保了语言转换过程中的语义完整性,为斯瓦希里语编程教育提供了坚实的语料基础。
特点
该数据集展现出多维度特征优势,其核心价值在于覆盖算法设计、数据结构、调试技巧等编程核心领域的17万条多轮对话。每条对话均采用纯斯瓦希里语表达,既包含人类提问又配备专业解答,形成完整的教学对话链条。特别值得关注的是,数据集专门针对低资源语言场景优化,采用标准化的对话结构设计,为斯瓦希里语编程助手的指令调优提供了理想训练素材。
使用方法
在具体应用层面,研究者可通过Hugging Face数据集库直接加载该资源。使用load_dataset函数调用数据集标识符后,即可访问训练集中的17万条编程对话。每条数据以标准JSON格式呈现对话序列,其中包含交替的人类提问与AI回复。这种结构化设计便于开发者直接用于模型训练、教育工具开发或多语言代码生成研究,为促进斯瓦希里语编程教育发展提供技术支撑。
背景与挑战
背景概述
随着人工智能技术在编程教育领域的深入应用,多语言代码助手的发展成为推动计算思维全球普及的关键环节。Code-170k-swahili数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2转化构建,专注于通过斯瓦希里语编程对话促进非洲语言群体的技术赋能。该数据集涵盖17.7万条高质量对话,涉及算法设计、数据结构及调试实践等核心编程概念,为低资源语言社区的计算机教育提供了重要基础设施,显著推动了多语言代码生成模型的公平性发展。
当前挑战
在编程教育领域,低资源语言的代码理解与生成长期面临语义对齐困难,斯瓦希里语特有的语法结构与传统编程术语存在映射偏差。数据集构建过程中需克服专业术语的跨文化转译挑战,既要保持编程概念的精确性,又需符合斯瓦希里语的自然表达习惯。同时,对话数据的质量验证需兼顾编程逻辑正确性与语言地道性,这对人工标注与自动校验机制提出了双重标准要求。
常用场景
经典使用场景
在自然语言处理领域,Code-170k-swahili数据集作为编程教育资源的创新载体,其最经典的使用场景体现在训练斯瓦希里语编程助手方面。该数据集通过17万条高质量编程对话,为构建能够理解斯瓦希里语编程问题的智能系统提供了坚实基础。研究人员利用这些多轮对话数据,能够开发出专门针对斯瓦希里语使用者的代码生成和解释工具,有效填补了非洲本土语言在编程教育领域的空白。
解决学术问题
该数据集主要解决了低资源语言在编程教育领域的知识鸿沟问题。传统编程教育资源大多集中于英语等主流语言,导致斯瓦希里语使用者面临显著的学习障碍。通过提供大规模的本土化编程对话数据,该数据集为研究多语言代码生成、跨语言知识迁移等前沿课题提供了重要支撑。其意义在于推动了计算语言学在非洲语言场景下的应用发展,为构建包容性人工智能生态系统奠定了数据基础。
衍生相关工作
围绕该数据集已衍生出多个重要研究方向,包括基于低资源语言的代码生成模型优化、跨语言编程知识迁移技术等。研究者通过分析数据集中的对话模式,开发了专门针对斯瓦希里语语法特性的代码解析算法。相关工作还拓展至多模态学习领域,探索将斯瓦希里语编程指令与可视化编程元素相结合的创新方法,为非洲地区的计算机科学教育提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



