Code-170k-afrikaans

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-afrikaans

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-afrikaans是一个包含176,999个编程对话的数据集，这些对话是用Afrikaans语言进行的，旨在为Afrikaans语使用者提供编程教育的资源。该数据集适用于训练Afrikaans语言编程助手、构建教育工具、研究多语言代码生成、创建Afrikaans编程教程以及支持低资源语言的AI开发。

创建时间：

2025-10-19

原始信息汇总

Code-170k-afrikaans 数据集概述

基本信息

数据集名称: Code-170k-afrikaans
发布年份: 2025
发布平台: Hugging Face
许可证: Apache 2.0
语言: 南非荷兰语 (af)
数据规模: 100K<n<1M

数据集特征

数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译
数据量: 176,999个编程对话
数据格式: 多轮对话结构
文件大小:
- 下载大小: 171,272,412字节
- 数据集大小: 342,544,824字节

数据结构

数据字段

conversations: 对话列表
- from: 说话者身份（"human"或"gpt"）
- value: 南非荷兰语消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[南非荷兰语问题]" }, { "from": "gpt", "value": "[南非荷兰语回答]" } ] }

应用领域

文本生成
问答系统
南非荷兰语编程助手训练
多语言代码生成研究
低资源语言AI开发
南非荷兰语教育工具开发

数据集标签

code
programming
af
afrikaans
african-languages
low-resource
multilingual
instruction-tuning

引用信息

bibtex @dataset{code170k_afrikaans, title={Code-170k-afrikaans: Programming Conversations in Afrikaans}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-afrikaans} }

搜集汇总

数据集介绍

构建方式

在编程教育资源稀缺的背景下，该数据集通过创新性的跨语言迁移技术构建而成。原始数据源自glaive-code-assistant-v2的17.7万条编程对话，经由专业翻译流程转化为阿非利卡斯语。构建过程严格遵循语言对齐原则，确保技术术语的准确性与对话逻辑的连贯性，为低资源语言社区提供了高质量的编程教学素材。

特点

该数据集最显著的特征在于其语言资源的稀缺性与技术内容的丰富性。作为目前规模最大的阿非利卡斯语编程对话集，其17.7万条多轮对话覆盖算法设计、数据结构、调试技巧等核心编程领域。每条对话均采用标准化的双字段结构，通过人机对话形式展现编程知识的传授过程，为研究多语言代码生成提供了珍贵样本。

使用方法

在自然语言处理应用中，该数据集可通过标准接口直接加载使用。开发者利用datasets库的load_dataset函数即可获取完整数据，继而应用于阿非利卡斯语编程助手的指令微调。数据中的conversations字段包含完整对话序列，支持端到端的模型训练，特别适用于构建面向低资源语言群体的智能编程教育工具。

背景与挑战

背景概述

在人工智能与自然语言处理领域，低资源语言的数字化发展长期面临技术资源匮乏的困境。Code-170k-afrikaans数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2数据集构建，通过系统化翻译将17.7万条编程对话转化为阿非利卡语。该资源致力于解决阿非利卡语使用者在编程教育与技术交流中的语言壁垒，推动低资源语言在代码生成、智能辅导等自然语言处理任务中的技术普惠，为多语言人工智能生态注入新活力。

当前挑战

构建过程需克服阿非利卡语技术术语标准化与语境适配的双重挑战，确保编程概念在翻译中保持逻辑一致性；领域层面需应对低资源语言模型在代码理解、语法纠错等任务中数据稀疏性导致的性能瓶颈，同时需平衡通用编程知识与语言特异性需求，以支撑跨语言代码生成系统的稳健发展。

常用场景

经典使用场景

在低资源语言技术领域，Code-170k-afrikaans数据集通过17万条高质量编程对话，为阿非利卡斯语开发者构建了完整的教学资源。这些多轮对话涵盖算法设计、数据结构实现及调试技巧等核心编程概念，成为训练本土化代码助手的关键语料库，显著提升了非洲地区技术教育的语言适配性。

实际应用

在实际应用层面，该数据集支撑着阿非利卡斯语编程教学平台的开发，使母语者能通过自然对话学习编程概念。教育机构可基于此构建个性化代码辅导系统，技术企业则能训练本土化开发工具，有效降低非洲地区程序员的入门门槛，促进当地数字人才培养与技术生态建设。

衍生相关工作

该数据集已催生多项跨语言代码生成研究，包括基于迁移学习的低资源语言模型微调框架，以及多模态编程教育系统的开发。相关成果延伸至非洲语言技术联盟的标准化工作，为约鲁巴语、斯瓦希里语等非洲语言的数字资源建设提供了可复用的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集