Code-170k-swahili

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-swahili

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-swahili是一个包含176,999个编程对话的数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成斯瓦希里语，使得编码教育对斯瓦希里语使用者更加普及。它包含纯斯瓦希里语的多人对话，涵盖各种编程概念，适用于大型语言模型的指令微调。

创建时间：

2025-10-20

原始信息汇总

Code-170k-swahili 数据集概述

数据集基本信息

数据集名称: Code-170k-swahili
数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-swahili
许可证: Apache 2.0
语言: 斯瓦希里语 (sw)
规模分类: 100K<n<1M

数据集规模

训练集样本数量: 176,999
训练集大小: 326,382,592 字节
下载大小: 163,191,296 字节

数据集特征

数据字段

conversations: 对话列表，每个对话包含：
- from: 说话者（"human" 或 "gpt"）
- value: 斯瓦希里语的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[斯瓦希里语的问题]" }, { "from": "gpt", "value": "[斯瓦希里语的回答]" } ] }

数据集特点

数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译为斯瓦希里语
内容类型: 176,999个高质量编程对话
对话形式: 多轮对话，涵盖各种编程概念
主题范围: 算法、数据结构、调试、最佳实践等

任务类别

文本生成
问答系统

主要用途

训练斯瓦希里语编程助手
为斯瓦希里语开发者构建教育工具
多语言代码生成研究
创建斯瓦希里语编程教程
支持低资源语言AI开发

引用格式

bibtex @dataset{code170k_swahili, title={Code-170k-swahili: Programming Conversations in Swahili}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-swahili} }

搜集汇总

数据集介绍

构建方式

在编程教育资源稀缺的背景下，Code-170k-swahili数据集通过创新性的跨语言转换方法构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话语料，经过专业翻译流程将17万条高质量编程对话精准转化为斯瓦希里语。这种构建策略不仅保留了原始数据的技术准确性，还确保了语言转换过程中的语义完整性，为斯瓦希里语编程教育提供了坚实的语料基础。

特点

该数据集展现出多维度特征优势，其核心价值在于覆盖算法设计、数据结构、调试技巧等编程核心领域的17万条多轮对话。每条对话均采用纯斯瓦希里语表达，既包含人类提问又配备专业解答，形成完整的教学对话链条。特别值得关注的是，数据集专门针对低资源语言场景优化，采用标准化的对话结构设计，为斯瓦希里语编程助手的指令调优提供了理想训练素材。

使用方法

在具体应用层面，研究者可通过Hugging Face数据集库直接加载该资源。使用load_dataset函数调用数据集标识符后，即可访问训练集中的17万条编程对话。每条数据以标准JSON格式呈现对话序列，其中包含交替的人类提问与AI回复。这种结构化设计便于开发者直接用于模型训练、教育工具开发或多语言代码生成研究，为促进斯瓦希里语编程教育发展提供技术支撑。

背景与挑战

背景概述

随着人工智能技术在编程教育领域的深入应用，多语言代码助手的发展成为推动计算思维全球普及的关键环节。Code-170k-swahili数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2转化构建，专注于通过斯瓦希里语编程对话促进非洲语言群体的技术赋能。该数据集涵盖17.7万条高质量对话，涉及算法设计、数据结构及调试实践等核心编程概念，为低资源语言社区的计算机教育提供了重要基础设施，显著推动了多语言代码生成模型的公平性发展。

当前挑战

在编程教育领域，低资源语言的代码理解与生成长期面临语义对齐困难，斯瓦希里语特有的语法结构与传统编程术语存在映射偏差。数据集构建过程中需克服专业术语的跨文化转译挑战，既要保持编程概念的精确性，又需符合斯瓦希里语的自然表达习惯。同时，对话数据的质量验证需兼顾编程逻辑正确性与语言地道性，这对人工标注与自动校验机制提出了双重标准要求。

常用场景

经典使用场景

在自然语言处理领域，Code-170k-swahili数据集作为编程教育资源的创新载体，其最经典的使用场景体现在训练斯瓦希里语编程助手方面。该数据集通过17万条高质量编程对话，为构建能够理解斯瓦希里语编程问题的智能系统提供了坚实基础。研究人员利用这些多轮对话数据，能够开发出专门针对斯瓦希里语使用者的代码生成和解释工具，有效填补了非洲本土语言在编程教育领域的空白。

解决学术问题

该数据集主要解决了低资源语言在编程教育领域的知识鸿沟问题。传统编程教育资源大多集中于英语等主流语言，导致斯瓦希里语使用者面临显著的学习障碍。通过提供大规模的本土化编程对话数据，该数据集为研究多语言代码生成、跨语言知识迁移等前沿课题提供了重要支撑。其意义在于推动了计算语言学在非洲语言场景下的应用发展，为构建包容性人工智能生态系统奠定了数据基础。

衍生相关工作

围绕该数据集已衍生出多个重要研究方向，包括基于低资源语言的代码生成模型优化、跨语言编程知识迁移技术等。研究者通过分析数据集中的对话模式，开发了专门针对斯瓦希里语语法特性的代码解析算法。相关工作还拓展至多模态学习领域，探索将斯瓦希里语编程指令与可视化编程元素相结合的创新方法，为非洲地区的计算机科学教育提供了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集