Code-170k-sepedi

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-sepedi

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-sepedi是一个包含176,999个编程对话的数据集，这些对话是从英语翻译成Sepedi语言的，旨在为Sepedi说话者提供编程教育的普及。数据集包含多轮对话，涵盖各种编程概念，话题包括算法、数据结构、调试、最佳实践等。该数据集适合用于训练Sepedi语言的编程助手、构建教育工具、研究多语言代码生成、创建Sepedi编程教程以及支持低资源语言的AI开发。

创建时间：

2025-10-20

原始信息汇总

Code-170k-sepedi 数据集概述

数据集基本信息

数据集名称: Code-170k-sepedi
发布年份: 2025
发布平台: Hugging Face
许可证: Apache 2.0
语言: Sepedi (nso)

数据集规模

训练集样本数量: 176,999
训练集大小: 366,821,598 字节
下载大小: 183,410,799 字节
规模分类: 100K<n<1M

数据特征

数据结构

主要字段: conversations
对话轮次结构:
- from: 说话者标识（"human" 或 "gpt"）
- value: 用Sepedi语言编写的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[Sepedi语言的问题]" }, { "from": "gpt", "value": "[Sepedi语言的回答]" } ] }

数据集特点

核心特性

高质量编程对话: 包含176,999个关于编程和编码的高质量对话
纯Sepedi语言: 使编码教育民主化，面向Sepedi使用者
多轮对话: 涵盖各种编程概念的多轮对话
多样化主题: 包括算法、数据结构、调试、最佳实践等

技术特性

任务类别: 文本生成、问答
标签: 代码、编程、nso、sepedi、非洲语言、低资源、多语言、指令调优
数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译而来

主要用途

训练Sepedi语言编码助手
为Sepedi开发者构建教育工具
多语言代码生成研究
创建Sepedi编程教程
支持低资源语言AI开发
大型语言模型的指令调优

引用信息

bibtex @dataset{code170k_sepedi, title={Code-170k-sepedi: Programming Conversations in Sepedi}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-sepedi} }

搜集汇总

数据集介绍

构建方式

在构建Code-170k-sepedi数据集的过程中，研究团队从glaiveai/glaive-code-assistant-v2这一高质量编程对话数据源获取原始内容，随后通过专业翻译流程将其转化为塞佩迪语。这一过程确保了编程知识的准确传递，同时兼顾了低资源语言的技术需求，最终形成了包含176,999条对话的标准化数据集。

特点

该数据集以其纯正的塞佩迪语编程对话为显著特征，涵盖算法设计、数据结构、调试技巧等多元主题。每条记录均采用多轮对话结构，完整呈现编程问题求解的思维过程。作为专门针对低资源语言设计的语料库，它不仅填补了非洲语言编程教育的空白，更为多语言代码生成研究提供了重要支撑。

使用方法

使用者可通过Hugging Face的datasets库直接加载该数据集，调用load_dataset函数即可获取训练集全部内容。每条数据以对话列表形式呈现，包含人类提问与AI回复的交替记录。这种标准化格式使其能无缝接入各类语言模型训练流程，特别适用于构建塞佩迪语编程助手和开展多语言指令微调实验。

背景与挑战

背景概述

在人工智能与自然语言处理领域，多语言编程教育资源的稀缺性日益凸显，尤其对于非洲低资源语言而言。Code-170k-sepedi数据集由研究机构于2025年构建，旨在通过将17.6万条编程对话从英语翻译为塞佩迪语，解决该语言群体在代码学习与人工智能辅助编程工具访问方面的障碍。该数据集基于glaiveai/glaive-code-assistant-v2的原始语料，覆盖算法设计、数据结构及调试实践等核心编程概念，为塞佩迪语开发者提供了首个大规模指令调优资源，显著推动了低资源语言在技术教育领域的包容性发展。

当前挑战

构建多语言编程数据集面临双重挑战：在领域问题层面，需克服低资源语言代码语义对齐的复杂性，确保技术术语在塞佩迪语中的准确表达与编程逻辑一致性；在构建过程中，翻译工作需平衡自然语言流畅性与专业代码结构保留，同时应对塞佩迪语语法特性与编程语境融合的跨文化适配难题。此外，数据质量验证环节需解决对话连贯性维护与多轮交互意图传递的完整性，这对资源稀缺语言的语料标注提出了更高要求。

常用场景

经典使用场景

在低资源语言技术发展领域，Code-170k-sepedi数据集通过17万条编程对话的塞佩迪语翻译版本，为构建本土化代码助手提供了核心训练素材。这些多轮对话涵盖算法设计、数据结构实现及调试技巧等编程基础，能够有效支撑塞佩迪语编程教育工具的指令微调过程，填补了非洲语言在计算机教育领域的资源空白。

实际应用

塞佩迪语社区的软件开发教育是该数据集最直接的应用场景，教育机构可基于此开发交互式编程教程与智能答疑系统。在产业层面，本土化软件开发团队能借助该数据集训练专属代码补全工具，显著降低语言障碍带来的开发门槛，为非洲科技人才培养提供可持续的技术基础设施。

衍生相关工作

以该数据集为基石的研究已催生多个创新方向，包括基于跨语言迁移学习的低资源编程助手构建、塞佩迪语代码语义理解模型的优化等。这些工作不仅扩展了原始数据集的学术价值，更形成了从语料构建到实际应用的完整技术链条，为后续非洲语言信息化建设提供了可复用的方法论框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集