Code-170k-rundi

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-rundi

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-rundi是一个包含176,999个编程对话的数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成隆迪语（Rundi），使得编程教育对隆迪语使用者变得可行。该数据集包含了关于编程和编码的高质量对话，全部使用纯隆迪语，涵盖多种编程概念的多轮对话，话题包括算法、数据结构、调试、最佳实践等，且适用于大型语言模型的指令微调。

创建时间：

2025-10-20

原始信息汇总

Code-170k-rundi 数据集概述

基本信息

数据集名称: Code-170k-rundi
数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-rundi
许可证: Apache 2.0
语言: 基隆迪语 (rn)
数据规模: 100K<n<1M

数据集描述

Code-170k-rundi 是一个包含 176,999 个编程对话的开创性数据集，原始数据来源于 glaiveai/glaive-code-assistant-v2，并翻译成基隆迪语，使基隆迪语使用者能够获得编程教育。

关键特性

176,999 个高质量的编程和编码对话
纯基隆迪语内容
多轮对话涵盖各种编程概念
多样化主题：算法、数据结构、调试、最佳实践等
适用于大型语言模型的指令调优

数据集结构

数据特征

conversations: 对话轮次列表，每个轮次包含：
- from: 说话者（"human" 或 "gpt"）
- value: 基隆迪语的消息内容

数据分割

训练集: 176,999 个样本，340,454,713 字节

使用场景

训练基隆迪语编码助手
为基隆迪开发者构建教育工具
研究多语言代码生成
创建基隆迪语编程教程
支持低资源语言人工智能开发

技术标签

code
programming
rn
rundi
african-languages
low-resource
multilingual
instruction-tuning

任务类别

文本生成
问答

搜集汇总

数据集介绍

构建方式

在促进编程教育普及化的背景下，Code-170k-rundi数据集通过精心设计的多阶段流程构建而成。其原始数据源自glaiveai/glaive-code-assistant-v2的编程对话语料，经过专业翻译团队将其完整转化为隆迪语。构建过程中严格保持对话轮次结构与技术内容的完整性，最终形成包含176,999条高质量对话的标准化数据集，为低资源语言社区的编程教育奠定坚实基础。

特点

作为专为隆迪语编程教育设计的语料库，该数据集展现出鲜明的技术特色。全部对话内容均采用纯正隆迪语表述，涵盖算法设计、数据结构、调试技巧等多元编程主题。其多轮对话结构完整呈现编程问题解决的全过程，每个对话单元均包含人类提问与智能体应答的完整交互序列。这种设计既保留了原始语料的技术深度，又确保了语言表达的本地化适配，为开发隆迪语编程助手提供了优质训练素材。

使用方法

在具体应用层面，研究人员可通过Hugging Face生态系统便捷调用该数据集。使用标准datasets库加载函数即可获取完整训练集，每条数据均以结构化对话格式呈现。开发者可直接将其用于指令调优任务，训练面向隆迪语使用者的代码生成模型。教育机构则可基于该数据集构建本地化编程教学工具，推动非洲语言在计算机教育领域的实际应用，促进技术知识的跨语言传播。

背景与挑战

背景概述

随着人工智能技术在编程教育领域的深入应用，多语言代码助手的发展成为推动全球技术包容性的关键环节。Code-170k-rundi数据集由研究团队于2025年构建，基于glaiveai/glaive-code-assistant-v2的原始数据，通过系统化翻译将17.7万条编程对话转化为隆迪语。该数据集聚焦于解决低资源语言群体在编程教育中的语言障碍，其多轮对话结构覆盖算法设计、数据结构及调试实践等核心编程概念，为隆迪语开发者提供了本土化的学习资源，显著促进了非洲语言在技术教育领域的代表性。

当前挑战

在编程教育领域，低资源语言的代码生成面临术语标准化与逻辑一致性难题，隆迪语缺乏编程专用词汇体系导致模型需解决语义映射的复杂性。数据集构建过程中，专业编程概念的跨文化转译成为主要挑战，例如面向对象编程等术语需在保持技术准确性的前提下适应隆迪语言习惯。同时，对话数据的多轮结构要求翻译过程维持指令与响应的逻辑连贯性，而低资源语言的语料稀缺性进一步增加了高质量数据生成的难度。

常用场景

经典使用场景

在低资源语言技术领域，Code-170k-rundi数据集通过17.7万组编程对话的隆迪语翻译版本，为构建本土化编程教育工具提供了核心语料。该数据集典型应用于训练专精于代码生成与程序解析的隆迪语大语言模型，支持多轮技术对话场景下的指令微调，涵盖算法设计、数据结构实现及调试技巧等编程核心议题。

衍生相关工作

该数据集已催生多项跨语言代码生成领域的创新研究，包括基于对比学习的低资源语言指令微调框架、编程知识的多语言对齐模型等。相关工作进一步拓展至非洲语言技术生态建设，衍生出面向斯瓦希里语、豪萨语等非洲语言的代码数据集构建范式，形成技术辐射效应。

数据集最近研究