Code-170k-hausa

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-hausa

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-hausa是一个包含176,999个编程对话的数据集，这些对话被翻译成豪萨语，使得编程教育对豪萨语使用者更加易于接触。它包含了多轮对话，覆盖了各种编程概念，如算法、数据结构、调试、最佳实践等。该数据集适合用于训练豪萨语编程助手、构建教育工具、研究多语言代码生成、创建豪萨语编程教程以及支持低资源语言的AI开发。

创建时间：

2025-10-20

原始信息汇总

Code-170k-hausa 数据集概述

基本信息

数据集名称: Code-170k-hausa
许可证: Apache 2.0
语言: 豪萨语 (ha)
数据规模: 100K<n<1M
任务类别: 文本生成、问答

数据特征

总样本数: 176,999
训练集大小: 328,408,838 字节
下载大小: 164,204,419 字节
数据格式: 对话式编程问答

数据结构

数据字段

conversations: 对话列表
- from: 说话者身份（"human"或"gpt"）
- value: 豪萨语消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[豪萨语问题]" }, { "from": "gpt", "value": "[豪萨语回答]" } ] }

数据集特点

高质量编程对话: 176,999个编程相关对话
纯豪萨语内容: 促进豪萨语编程教育普及
多轮对话: 涵盖多种编程概念
多样化主题: 算法、数据结构、调试、最佳实践等
适用于指令调优: 支持大语言模型指令调优

使用场景

训练豪萨语编程助手
为豪萨开发者构建教育工具
多语言代码生成研究
创建豪萨语编程教程
支持低资源语言AI开发

数据来源

基于glaiveai/glaive-code-assistant-v2数据集翻译为豪萨语

引用格式

bibtex @dataset{code170k_hausa, title={Code-170k-hausa: Programming Conversations in Hausa}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-hausa} }

搜集汇总

数据集介绍

构建方式

在促进非洲本土语言技术发展的背景下，Code-170k-hausa数据集通过精心设计的翻译流程构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话内容，经过专业翻译转化为豪萨语版本。构建过程严格遵循语言质量把控，确保17万条对话在保留编程知识完整性的同时，实现语言的本土化转换，为低资源语言社区提供了高质量的教育资源基础。

特点

作为豪萨语编程教育领域的重要资源，该数据集展现出鲜明的多维度特征。其核心价值在于覆盖算法、数据结构及调试实践等广泛编程主题的17万条高质量对话。数据集采用多轮对话结构，完整呈现问题求解的思维过程，同时纯豪萨语内容打破了语言壁垒，为母语者创造了无障碍学习环境。这种设计特别适合低资源语言的指令微调任务，推动了多语言人工智能模型的均衡发展。

使用方法

在自然语言处理应用场景中，该数据集可通过标准流程加载使用。研究人员使用datasets库的load_dataset函数即可直接获取训练集，其中每个样本包含由人类提问与AI回复构成的对话链。这些标注清晰的对话数据可直接用于豪萨语代码助手的训练，也可作为跨语言编程教育工具的开发基础，为促进技术普及提供了即插即用的解决方案。

背景与挑战

背景概述

随着自然语言处理技术在多语言编程教育领域的深入应用，Code-170k-hausa数据集于2025年由研究团队通过转化glaiveai/glaive-code-assistant-v2原始语料构建而成。该数据集聚焦于豪萨语编程对话的生成与理解，旨在解决低资源语言群体在计算机科学教育中面临的语言壁垒问题。通过提供17.6万条高质量编程对话，该资源显著推动了豪萨语开发工具与教育平台的建设，为非洲语言社区的数字化人才培养奠定了数据基础。

当前挑战

在编程教育领域，低资源语言的代码语义对齐与教学逻辑适配构成核心挑战，需解决专业术语的跨语言准确转化与编程思维的本土化表达问题。数据集构建过程中，面临豪萨语编程语料稀缺导致的翻译质量风险，以及多轮对话中技术概念一致性维护的难题，同时需克服低资源语言缺乏编程术语标准规范对数据标注造成的复杂性。

常用场景

经典使用场景

在低资源语言技术发展的背景下，Code-170k-hausa数据集最经典的使用场景是作为训练豪萨语编程助手的核心语料。该数据集通过17万条高质量的编程对话，覆盖算法设计、数据结构实现及代码调试等多元主题，为构建能够理解并生成豪萨语代码的人工智能模型提供了坚实基础。其多轮对话结构尤其适合模拟真实编程教学中的交互过程，使得模型能够学习从问题分析到解决方案的完整逻辑链条。

实际应用

在实际应用层面，该数据集直接服务于豪萨语地区的数字化人才培养。基于此开发的智能编程助手可集成至在线教育平台，为初学者提供本土语言的技术指导。各类编程培训机构能利用这些对话数据构建定制化教学系统，政府部门亦可借助此类工具推进全民数字素养计划。这些应用切实促进了技术知识在豪萨语社群的传播与普及。

衍生相关工作

该数据集已催生多项创新性研究，包括豪萨语代码注释生成模型和跨语言程序理解系统。研究者通过微调多语言大模型，开发出能同时处理豪萨语与编程语言的混合神经网络架构。这些工作不仅扩展了低资源语言处理的技术边界，还启发了针对其他非洲语言的类似数据集构建计划，形成持续推动语言技术多样化的良性循环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集