Code-170k-swati
收藏Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-swati
下载链接
链接失效反馈官方服务:
资源简介:
Code-170k-swati是一个包含176,999个编程对话的数据集,这些对话最初来源于glaiveai/glaive-code-assistant-v2,并翻译成了Swati语,使得编码教育对Swati语使用者更加可及。该数据集适用于训练Swati语言的编码助手、构建教育工具、研究多语言代码生成、创建Swati语的编程教程以及支持低资源语言的AI发展。
Code-170k-swati is a dataset consisting of 176,999 programming conversations. Originally sourced from glaiveai/glaive-code-assistant-v2, these conversations were translated into Swati, thereby enhancing the accessibility of coding education for Swati-speaking users. This dataset is applicable for training Swati-language coding assistants, developing educational tools, conducting research on multilingual code generation, creating Swati-language programming tutorials, and supporting AI development for low-resource languages.
创建时间:
2025-10-20
原始信息汇总
Code-170k-swati 数据集概述
基本信息
- 数据集名称:Code-170k-swati
- 发布年份:2025
- 发布平台:Hugging Face
- 许可证:Apache 2.0
- 语言:斯瓦蒂语(ss)
数据集规模
- 训练集样本数量:176,999
- 训练集大小:327,158,239字节
- 下载大小:163,579,119字节
- 规模分类:100K<n<1M
数据特征
数据结构
- 主要字段:conversations(对话列表)
- 对话结构:
- from:说话者身份("human"或"gpt")
- value:斯瓦蒂语消息内容
数据示例
python { "conversations": [ { "from": "human", "value": "[斯瓦蒂语问题]" }, { "from": "gpt", "value": "[斯瓦蒂语回答]" } ] }
内容特点
- 数据来源:基于glaiveai/glaive-code-assistant-v2翻译
- 内容类型:编程对话
- 对话形式:多轮对话
- 主题范围:算法、数据结构、调试、最佳实践等编程概念
应用场景
- 训练斯瓦蒂语编程助手
- 为斯瓦蒂开发者构建教育工具
- 多语言代码生成研究
- 创建斯瓦蒂语编程教程
- 支持低资源语言AI开发
技术特性
- 任务类别:文本生成、问答
- 标签:代码、编程、斯瓦蒂语、非洲语言、低资源、多语言、指令调优
- 适用模型:大语言模型指令调优
使用方式
python from datasets import load_dataset
dataset = load_dataset("michsethowusu/Code-170k-swati") train_data = dataset[train]
搜集汇总
数据集介绍

构建方式
在编程教育领域,Code-170k-swati数据集通过精心设计的多轮对话结构构建而成,其原始内容源自glaive-code-assistant-v2的17.7万条编程对话。这些对话经过系统的语言转换流程,由专业翻译团队将英文编程术语与概念准确转化为斯瓦蒂语,并保留完整的对话逻辑与教学意图。数据构建过程特别注重保持编程问题的复杂性和解答的技术精确性,最终形成具有教学连贯性的高质量双语编程语料。
特点
该数据集最显著的特征在于其全面覆盖编程知识体系,囊括算法设计、数据结构、调试技巧等核心计算机科学主题。所有对话均采用纯斯瓦蒂语呈现,为低资源语言社区提供珍贵的编程教育资源。数据集采用多轮对话形式模拟真实教学场景,每条记录包含完整的问题提出与专家解答环节,其结构化设计特别适合用于训练理解编程逻辑的语言模型。这种设计既保留了原始数据的技术深度,又实现了语言的本土化转换。
使用方法
研究人员可通过Hugging Face标准接口直接加载数据集,使用load_dataset函数即可获取完整训练集。该数据集主要适用于文本生成与问答任务,能够有效支撑斯瓦蒂语编程助手的指令微调过程。在实际应用中,开发者可提取conversations字段中的对话序列,分别处理人类提问与AI回复内容,进而构建具有代码生成与解释能力的教育工具。这种使用方式既促进跨语言编程教育发展,也为低资源语言AI研究提供重要实验数据。
背景与挑战
背景概述
随着人工智能技术在编程教育领域的深入应用,多语言代码助手的发展成为推动全球技术普惠的关键环节。Code-170k-swati数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2构建而成,专注于将17.7万条编程对话翻译为斯瓦蒂语。该数据集通过涵盖算法设计、数据结构及调试实践等核心编程概念,旨在解决低资源语言群体在技术教育中的语言壁垒,为斯瓦蒂语开发者构建本土化编程教育工具提供了重要基础。
当前挑战
在编程教育领域,低资源语言面临的挑战包括缺乏高质量技术术语翻译及语境适配能力,导致模型难以准确理解编程逻辑与语义关联。数据构建过程中,需克服斯瓦蒂语技术词汇稀缺性问题,同时确保多轮对话的连贯性与专业准确性,这对翻译一致性和领域知识对齐提出了极高要求。此外,保持原始编程问题与解决方案的完整性,需平衡语言本土化与技术严谨性之间的张力。
常用场景
经典使用场景
在自然语言处理与编程教育交叉领域,Code-170k-swati数据集通过17.6万组编程对话的丰富语料,为构建斯瓦蒂语代码助手提供了核心训练资源。这些多轮对话涵盖算法设计、数据结构实现及调试技巧等编程核心概念,使模型能够学习从自然语言指令到代码生成的完整交互逻辑,特别适用于低资源语言的指令微调场景。
解决学术问题
该数据集有效缓解了非洲语言在代码生成任务中的资源匮乏问题,为多语言编程教育研究提供了实证基础。通过将高质量编程对话转化为斯瓦蒂语,它不仅填补了该语言在技术教育领域的语义空白,更推动了低资源语言模型在复杂逻辑任务上的性能边界,为语言技术公平性研究提供了关键数据支撑。
衍生相关工作
该数据集已催生系列跨语言代码生成研究,包括基于迁移学习的低资源语言模型微调框架、多模态编程教育系统等创新工作。相关成果在AFRIQA等区域性AI会议中形成技术范式,并启发后续斯瓦蒂语数学推理数据集的构建,逐步完善非洲语言的技术教育数据集体系。
以上内容由遇见数据集搜集并总结生成



