Code-170k-chichewa

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-chichewa

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-chichewa是一个包含176,999条高质量编程对话的数据集，全部以奇切瓦语呈现，适用于编程教育的民主化，支持多种编程概念的多轮对话，话题涵盖算法、数据结构、调试、最佳实践等，可用于训练大型语言模型的指令微调。

Code-170k-chichewa is a dataset containing 176,999 high-quality programming dialogues entirely presented in Chichewa. It is designed to facilitate the democratization of programming education, supports multi-turn dialogues covering diverse programming concepts, with topics including algorithms, data structures, debugging, best practices and more, and can be used for instruction tuning of large language models (LLMs).

创建时间：

2025-10-20

原始信息汇总

Code-170k-chichewa 数据集概述

数据集基本信息

名称: Code-170k-chichewa
语言: 奇切瓦语 (ny)
许可证: Apache 2.0
数据规模: 100K<n<1M
任务类别: 文本生成、问答

数据集内容

数据量: 176,999 条编程对话
数据来源: 基于glaiveai/glaive-code-assistant-v2翻译为奇切瓦语
数据格式: 多轮对话格式
文件大小: 下载大小163,054,387字节，数据集大小326,108,775字节

数据结构

数据特征

conversations: 对话列表
- from: 说话者身份（"human"或"gpt"）
- value: 奇切瓦语消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[奇切瓦语问题]" }, { "from": "gpt", "value": "[奇切瓦语回答]" } ] }

主要特点

高质量编程对话内容
纯奇切瓦语言
多轮对话形式
涵盖算法、数据结构、调试、最佳实践等编程主题
适用于大语言模型的指令调优

应用场景

训练奇切瓦语编程助手
构建奇切瓦开发者教育工具
多语言代码生成研究
创建奇切瓦语编程教程
支持低资源语言AI开发

引用格式

bibtex @dataset{code170k_chichewa, title={Code-170k-chichewa: Programming Conversations in Chichewa}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-chichewa} }

搜集汇总

数据集介绍

构建方式

在低资源语言技术发展的背景下，Code-170k-chichewa数据集通过精心设计的流程构建而成。其原始数据源自glaive-code-assistant-v2的编程对话集合，经过系统性的翻译与本地化处理，将全部内容转化为奇切瓦语。这一过程不仅确保了语言转换的准确性，还保留了编程知识的结构完整性，最终形成包含176,999条对话的高质量语料。

使用方法

针对自然语言处理研究需求，该数据集可通过标准接口便捷加载。使用者借助Hugging Face的datasets库即可直接获取训练集，其中每个样本均以结构化对话格式呈现。研究人员可将其应用于指令调优、代码生成模型训练等场景，通过迭代访问对话中的发言者角色和内容字段，构建适合奇切瓦语编程助手开发的训练流程。

背景与挑战

背景概述

在低资源语言技术发展领域，非洲本土语言的数字化资源长期匮乏，制约了当地编程教育的普及。Code-170k-chichewa数据集应运而生，由研究团队基于glaiveai/glaive-code-assistant-v2数据集进行创造性转化，通过将17.6万条编程对话翻译为奇切瓦语，填补了该语言在代码生成与教育辅助任务中的空白。该数据集以多轮对话形式覆盖算法设计、调试实践等核心编程概念，为构建奇切瓦语专用代码助手提供了关键语料支撑，显著推动了低资源语言在人工智能教育领域的包容性发展。

当前挑战

构建过程面临双重挑战：其一，技术层面需克服奇切瓦语与编程术语融合的复杂性，包括专业概念的本土化表达与语法结构适配；其二，资源层面受限于低资源语言标注数据稀缺，需通过跨语言迁移与人工校验保障翻译准确性。领域应用层面，该数据集致力于解决低资源语言代码生成任务中语义理解与逻辑一致性问题，同时需应对多轮编程对话的上下文连贯性维护、教育场景下指令调优的精准度提升等核心难题。

常用场景

经典使用场景

在低资源语言技术研究领域，Code-170k-chichewa数据集主要应用于训练切瓦语编程助手模型。该数据集通过17.6万条高质量编程对话，为切瓦语开发者构建了完整的编程知识体系，涵盖算法设计、数据结构、代码调试等核心编程概念。研究人员利用这些多轮对话数据，能够有效提升模型对切瓦语编程指令的理解和代码生成能力，为非洲本土语言社区的编程教育提供技术支撑。

解决学术问题

该数据集有效解决了低资源语言在编程教育领域的数据稀缺性问题。传统编程教育资源主要集中于英语等主流语言，导致切瓦语等非洲语言使用者面临技术鸿沟。通过系统化的编程对话翻译，该数据集填补了切瓦语编程知识库的空白，为多语言代码生成、低资源语言指令微调等前沿研究方向提供了关键数据基础，推动了语言技术公平化发展。

实际应用

在实际应用层面，该数据集支撑着切瓦语编程教育工具的开发和优化。基于这些对话数据训练的AI助手能够为切瓦语学习者提供本土化的编程指导，从基础语法解释到复杂算法实现，形成完整的教学闭环。教育机构可利用这些工具开发切瓦语编程课程，技术公司则能构建面向马拉维等地区的本地化开发环境，切实提升非洲开发者的技术能力。

数据集最近研究