Code-170k-susu

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-susu

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-susu是一个包含176,999个编程对话的创新数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成Susu语，使得编码教育对Susu语使用者更加普及。它包含关于编程和编码的高质量对话，全部使用纯Susu语言，涵盖多轮对话，涉及各种编程概念和多样化的话题。该数据集适用于指令微调大型语言模型。

创建时间：

2025-10-20

原始信息汇总

Code-170k-susu 数据集概述

数据集基本信息

数据集名称: Code-170k-susu
创建者: michsethowusu
许可证: Apache 2.0
语言: 苏苏语 (sus)
数据规模: 100K<n<1M

数据集内容

数据量: 176,999 条编程对话
数据来源: 基于 glaiveai/glaive-code-assistant-v2 数据集翻译为苏苏语
内容类型: 编程对话和多轮对话
覆盖主题: 算法、数据结构、调试、最佳实践等编程概念

技术规格

数据结构

特征字段:
- conversations: 对话列表
  - from: 说话者身份（"human" 或 "gpt"）
  - value: 苏苏语消息内容

数据划分

训练集:
- 样本数量: 176,999
- 数据大小: 328,907,441 字节
- 下载大小: 164,453,720 字节

应用场景

训练苏苏语编程助手
构建苏苏开发者教育工具
多语言代码生成研究
苏苏语编程教程开发
低资源语言人工智能发展支持

任务类别

文本生成
问答系统

标签分类

代码
编程
苏苏语
非洲语言
低资源语言
多语言
指令调优

搜集汇总

数据集介绍

构建方式

在编程教育领域，Code-170k-susu数据集通过精心设计的多轮对话结构构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话，经过专业翻译流程转化为苏苏语版本。构建过程中保留了完整的对话轮次结构，每个样本包含人类提问与模型回复的交替序列，最终形成包含176,999个高质量对话实例的训练集，为低资源语言社区的编程教育奠定数据基础。

特点

该数据集最显著的特点是全面覆盖编程知识体系，涵盖算法设计、数据结构、调试技巧等核心概念。所有对话内容均采用纯正苏苏语表述，实现了编程知识的本土化传播。其多轮对话设计模拟真实教学场景，对话轮次间保持严密的逻辑连贯性。作为专门针对低资源语言构建的编程数据集，它既保持了技术内容的专业性，又确保了语言表达的自然流畅。

使用方法

研究人员可通过Hugging Face数据集库直接加载该资源，使用标准接口获取训练数据。典型应用场景包括构建苏苏语编程助手模型、开发本土化编程教育工具，以及进行多语言代码生成研究。数据以对话树结构组织，支持端到端的指令微调流程，用户可依据具体需求提取人类指令与模型响应对，为低资源语言人工智能发展提供重要支撑。

背景与挑战

背景概述

随着人工智能技术在编程教育领域的深入应用，多语言代码助手的发展成为推动计算思维普及的关键环节。Code-170k-susu数据集由研究团队于2025年构建并发布，其核心目标在于通过将17.7万条编程对话翻译至苏苏语，为非洲低资源语言社群提供本土化的编程教育资源。该数据集源自glaiveai/glaive-code-assistant-v2的原始语料，覆盖算法设计、数据结构及调试实践等多维度编程知识，不仅填补了苏苏语在技术教育领域的空白，更为跨语言代码生成研究提供了重要基础。

当前挑战

在编程教育领域，低资源语言的语义精准性与技术术语一致性构成核心挑战，苏苏语缺乏标准化技术词汇体系导致翻译过程需解决概念失真问题。数据集构建过程中面临双重困难：一方面需保持原始编程逻辑的完整性，避免方言差异引发的语义歧义；另一方面受限于低资源语言标注工具匮乏，须依赖人工校验确保多轮对话的连贯性。此外，技术文档与口语化教学内容的平衡、文化语境适配等维度进一步增加了数据质量的管控难度。

常用场景

经典使用场景

在低资源语言技术发展的背景下，Code-170k-susu数据集为构建苏苏语编程助手提供了核心训练素材。该数据集通过17万条高质量编程对话，涵盖算法实现、数据结构应用及代码调试等主题，支持多轮对话形式的指令微调，显著提升了模型在苏苏语环境下的代码生成与问题解答能力。

衍生相关工作

受该数据集启发，研究界涌现出多项跨语言代码助手创新工作。例如基于多任务学习的低资源语言编程模型、融合语法特征的非洲语言代码生成框架，以及面向特定编程领域的苏苏语知识库构建。这些衍生成果共同推动了语言技术与计算思维的深度融合。

数据集最近研究