Code-170k-susu
收藏Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-susu
下载链接
链接失效反馈官方服务:
资源简介:
Code-170k-susu是一个包含176,999个编程对话的创新数据集,这些对话最初来源于glaiveai/glaive-code-assistant-v2,并翻译成Susu语,使得编码教育对Susu语使用者更加普及。它包含关于编程和编码的高质量对话,全部使用纯Susu语言,涵盖多轮对话,涉及各种编程概念和多样化的话题。该数据集适用于指令微调大型语言模型。
创建时间:
2025-10-20
原始信息汇总
Code-170k-susu 数据集概述
数据集基本信息
- 数据集名称: Code-170k-susu
- 创建者: michsethowusu
- 许可证: Apache 2.0
- 语言: 苏苏语 (sus)
- 数据规模: 100K<n<1M
数据集内容
- 数据量: 176,999 条编程对话
- 数据来源: 基于 glaiveai/glaive-code-assistant-v2 数据集翻译为苏苏语
- 内容类型: 编程对话和多轮对话
- 覆盖主题: 算法、数据结构、调试、最佳实践等编程概念
技术规格
数据结构
- 特征字段:
conversations: 对话列表from: 说话者身份("human" 或 "gpt")value: 苏苏语消息内容
数据划分
- 训练集:
- 样本数量: 176,999
- 数据大小: 328,907,441 字节
- 下载大小: 164,453,720 字节
应用场景
- 训练苏苏语编程助手
- 构建苏苏开发者教育工具
- 多语言代码生成研究
- 苏苏语编程教程开发
- 低资源语言人工智能发展支持
任务类别
- 文本生成
- 问答系统
标签分类
- 代码
- 编程
- 苏苏语
- 非洲语言
- 低资源语言
- 多语言
- 指令调优
搜集汇总
数据集介绍

构建方式
在编程教育领域,Code-170k-susu数据集通过精心设计的多轮对话结构构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话,经过专业翻译流程转化为苏苏语版本。构建过程中保留了完整的对话轮次结构,每个样本包含人类提问与模型回复的交替序列,最终形成包含176,999个高质量对话实例的训练集,为低资源语言社区的编程教育奠定数据基础。
特点
该数据集最显著的特点是全面覆盖编程知识体系,涵盖算法设计、数据结构、调试技巧等核心概念。所有对话内容均采用纯正苏苏语表述,实现了编程知识的本土化传播。其多轮对话设计模拟真实教学场景,对话轮次间保持严密的逻辑连贯性。作为专门针对低资源语言构建的编程数据集,它既保持了技术内容的专业性,又确保了语言表达的自然流畅。
使用方法
研究人员可通过Hugging Face数据集库直接加载该资源,使用标准接口获取训练数据。典型应用场景包括构建苏苏语编程助手模型、开发本土化编程教育工具,以及进行多语言代码生成研究。数据以对话树结构组织,支持端到端的指令微调流程,用户可依据具体需求提取人类指令与模型响应对,为低资源语言人工智能发展提供重要支撑。
背景与挑战
背景概述
随着人工智能技术在编程教育领域的深入应用,多语言代码助手的发展成为推动计算思维普及的关键环节。Code-170k-susu数据集由研究团队于2025年构建并发布,其核心目标在于通过将17.7万条编程对话翻译至苏苏语,为非洲低资源语言社群提供本土化的编程教育资源。该数据集源自glaiveai/glaive-code-assistant-v2的原始语料,覆盖算法设计、数据结构及调试实践等多维度编程知识,不仅填补了苏苏语在技术教育领域的空白,更为跨语言代码生成研究提供了重要基础。
当前挑战
在编程教育领域,低资源语言的语义精准性与技术术语一致性构成核心挑战,苏苏语缺乏标准化技术词汇体系导致翻译过程需解决概念失真问题。数据集构建过程中面临双重困难:一方面需保持原始编程逻辑的完整性,避免方言差异引发的语义歧义;另一方面受限于低资源语言标注工具匮乏,须依赖人工校验确保多轮对话的连贯性。此外,技术文档与口语化教学内容的平衡、文化语境适配等维度进一步增加了数据质量的管控难度。
常用场景
经典使用场景
在低资源语言技术发展的背景下,Code-170k-susu数据集为构建苏苏语编程助手提供了核心训练素材。该数据集通过17万条高质量编程对话,涵盖算法实现、数据结构应用及代码调试等主题,支持多轮对话形式的指令微调,显著提升了模型在苏苏语环境下的代码生成与问题解答能力。
衍生相关工作
受该数据集启发,研究界涌现出多项跨语言代码助手创新工作。例如基于多任务学习的低资源语言编程模型、融合语法特征的非洲语言代码生成框架,以及面向特定编程领域的苏苏语知识库构建。这些衍生成果共同推动了语言技术与计算思维的深度融合。
数据集最近研究
最新研究方向
在低资源语言技术领域,Code-170k-susu数据集正推动跨语言编程教育的革新。当前研究聚焦于利用该数据集构建苏苏语代码助手,探索多语言指令调优技术在编程任务中的迁移能力。随着全球数字包容性议题升温,该资源为非洲语言社区接入人工智能教育提供了关键基础设施,同时促进了低资源语言代码生成模型在数据增强和跨语言对齐方面的突破性进展。
以上内容由遇见数据集搜集并总结生成



