Code-170k-ndebele-south

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-ndebele-south

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-ndebele-south是一个包含176,999个编程对话的数据集，这些对话被翻译成南恩德贝莱语（Ndebele South），使南恩德贝莱语使用者能够接受编程教育。数据集覆盖了算法、数据结构、调试、最佳实践等多种编程主题，并适用于大型语言模型的指令微调。

创建时间：

2025-10-20

原始信息汇总

Code-170k-ndebele-south 数据集概述

基本信息

数据集名称: Code-170k-ndebele-south
语言: 南恩德贝莱语 (nr)
许可证: Apache 2.0
数据规模: 100K<n<1M
下载大小: 47,951,126 字节
数据集大小: 95,902,252 字节

数据集描述

Code-170k-ndebele-south 是一个包含 176,999 个编程对话的数据集，原始数据来源于 glaiveai/glaive-code-assistant-v2，并翻译成南恩德贝莱语，旨在为南恩德贝莱语使用者提供编程教育支持。

关键特征

176,999 个高质量编程对话
纯南恩德贝莱语内容
多轮对话格式
多样化主题: 算法、数据结构、调试、最佳实践等
适用于大语言模型的指令调优

数据集结构

数据字段

conversations: 对话轮次列表
- from: 说话者 ("human" 或 "gpt")
- value: 南恩德贝莱语的消息内容

数据分割

训练集: 176,999 个样本

使用场景

训练南恩德贝莱语编程助手
为南恩德贝莱语开发者构建教育工具
多语言代码生成研究
创建南恩德贝莱语编程教程
支持低资源语言AI开发

标签分类

code
programming
nr
ndebele-(south)
african-languages
low-resource
multilingual
instruction-tuning

任务类别

文本生成
问答系统

搜集汇总

数据集介绍

构建方式

在低资源语言技术发展的背景下，Code-170k-ndebele-south数据集通过创新性的跨语言迁移方法构建而成。其核心流程是从glaiveai/glaive-code-assistant-v2数据集中精选17.7万组编程对话，经由专业翻译团队将其完整转化为南恩德贝莱语。每个对话单元严格遵循多轮对话结构，包含人类提问与AI助手的完整交互记录，最终形成标准化JSON格式的语料库，为南恩德贝莱语区的编程教育奠定数据基础。

特点

作为非洲低资源语言技术的重要突破，该数据集呈现出显著的多元特征。其囊括算法设计、数据结构、代码调试等全方位编程知识，通过纯南恩德贝莱语的多轮对话形式展现。数据集采用清晰的对话树结构，每个会话单元均标注发言者身份与对应内容，不仅保障了语言的地道性，更保持了技术知识的专业准确度，为开发南恩德贝莱语编程助手提供了高质量训练素材。

使用方法

在跨语言人工智能应用场景中，研究者可通过HuggingFace标准接口快速加载该数据集。使用load_dataset函数调用数据集标识符后，即可访问包含17.7万组对话的训练集。每段对话以列表形式存储连续交互过程，用户可遍历conversations字段获取完整对话流，这种结构化设计特别适合用于指令微调、对话系统构建等自然语言处理任务，有效支持南恩德贝莱语编程教育工具的开发。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的数字化发展长期面临数据稀缺的困境。Code-170k-ndebele-south数据集由研究团队于2025年构建，基于glaiveai/glaive-code-assistant-v2的编程对话数据，通过专业翻译转化为南恩德贝莱语版本。该数据集聚焦于跨语言代码生成与教育普及，旨在为南恩德贝莱语使用者提供本土化的编程学习资源，推动非洲语言在计算语言学中的技术包容性发展。

当前挑战

该数据集致力于解决低资源语言编程教育中的语言壁垒问题，其核心挑战在于高质量双语语料的稀缺性与专业术语的准确转译。构建过程中需克服南恩德贝莱语编程术语体系缺失的障碍，确保17万条对话在保留技术准确性的同时符合语言文化习惯。多轮对话结构的完整性维护与低资源语言模型适配性优化，亦是实现有效指令调优的关键难点。

常用场景

经典使用场景

在低资源语言技术发展领域，该数据集通过17.7万条编程对话的南恩德贝莱语翻译版本，为构建本土化代码助手提供了核心训练素材。其多轮对话结构覆盖算法实现、调试技巧等编程全流程，显著提升了模型理解用民族语言表述复杂技术概念的能力，成为跨语言代码生成研究的基准资源。

实际应用

面向南恩德贝莱语社区的编程教育场景，该数据集支撑开发了系列本土化智能教学工具。这些应用能实时解答编程问题、提供代码调试建议，使母语使用者无需依赖英语即可掌握计算机科学知识，切实降低了技术学习的语言门槛，助力非洲地区数字人才培养。

衍生相关工作

基于此数据集衍生的经典工作包括Glaive代码助手模型的跨语言适配研究，以及多模态编程教学系统的开发。这些成果构建了从语料构建到模型优化的完整技术链条，为后续祖鲁语、科萨语等非洲语言的类似项目提供了可复现的范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集