five

Code-170k-rundi

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-rundi
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-rundi是一个包含176,999个编程对话的数据集,这些对话最初来源于glaiveai/glaive-code-assistant-v2,并翻译成隆迪语(Rundi),使得编程教育对隆迪语使用者变得可行。该数据集包含了关于编程和编码的高质量对话,全部使用纯隆迪语,涵盖多种编程概念的多轮对话,话题包括算法、数据结构、调试、最佳实践等,且适用于大型语言模型的指令微调。
创建时间:
2025-10-20
原始信息汇总

Code-170k-rundi 数据集概述

基本信息

  • 数据集名称: Code-170k-rundi
  • 数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-rundi
  • 许可证: Apache 2.0
  • 语言: 基隆迪语 (rn)
  • 数据规模: 100K<n<1M

数据集描述

Code-170k-rundi 是一个包含 176,999 个编程对话的开创性数据集,原始数据来源于 glaiveai/glaive-code-assistant-v2,并翻译成基隆迪语,使基隆迪语使用者能够获得编程教育。

关键特性

  • 176,999 个高质量的编程和编码对话
  • 纯基隆迪语内容
  • 多轮对话涵盖各种编程概念
  • 多样化主题:算法、数据结构、调试、最佳实践等
  • 适用于大型语言模型的指令调优

数据集结构

数据特征

  • conversations: 对话轮次列表,每个轮次包含:
    • from: 说话者("human" 或 "gpt")
    • value: 基隆迪语的消息内容

数据分割

  • 训练集: 176,999 个样本,340,454,713 字节

使用场景

  • 训练基隆迪语编码助手
  • 为基隆迪开发者构建教育工具
  • 研究多语言代码生成
  • 创建基隆迪语编程教程
  • 支持低资源语言人工智能开发

技术标签

  • code
  • programming
  • rn
  • rundi
  • african-languages
  • low-resource
  • multilingual
  • instruction-tuning

任务类别

  • 文本生成
  • 问答
搜集汇总
数据集介绍
构建方式
在促进编程教育普及化的背景下,Code-170k-rundi数据集通过精心设计的多阶段流程构建而成。其原始数据源自glaiveai/glaive-code-assistant-v2的编程对话语料,经过专业翻译团队将其完整转化为隆迪语。构建过程中严格保持对话轮次结构与技术内容的完整性,最终形成包含176,999条高质量对话的标准化数据集,为低资源语言社区的编程教育奠定坚实基础。
特点
作为专为隆迪语编程教育设计的语料库,该数据集展现出鲜明的技术特色。全部对话内容均采用纯正隆迪语表述,涵盖算法设计、数据结构、调试技巧等多元编程主题。其多轮对话结构完整呈现编程问题解决的全过程,每个对话单元均包含人类提问与智能体应答的完整交互序列。这种设计既保留了原始语料的技术深度,又确保了语言表达的本地化适配,为开发隆迪语编程助手提供了优质训练素材。
使用方法
在具体应用层面,研究人员可通过Hugging Face生态系统便捷调用该数据集。使用标准datasets库加载函数即可获取完整训练集,每条数据均以结构化对话格式呈现。开发者可直接将其用于指令调优任务,训练面向隆迪语使用者的代码生成模型。教育机构则可基于该数据集构建本地化编程教学工具,推动非洲语言在计算机教育领域的实际应用,促进技术知识的跨语言传播。
背景与挑战
背景概述
随着人工智能技术在编程教育领域的深入应用,多语言代码助手的发展成为推动全球技术包容性的关键环节。Code-170k-rundi数据集由研究团队于2025年构建,基于glaiveai/glaive-code-assistant-v2的原始数据,通过系统化翻译将17.7万条编程对话转化为隆迪语。该数据集聚焦于解决低资源语言群体在编程教育中的语言障碍,其多轮对话结构覆盖算法设计、数据结构及调试实践等核心编程概念,为隆迪语开发者提供了本土化的学习资源,显著促进了非洲语言在技术教育领域的代表性。
当前挑战
在编程教育领域,低资源语言的代码生成面临术语标准化与逻辑一致性难题,隆迪语缺乏编程专用词汇体系导致模型需解决语义映射的复杂性。数据集构建过程中,专业编程概念的跨文化转译成为主要挑战,例如面向对象编程等术语需在保持技术准确性的前提下适应隆迪语言习惯。同时,对话数据的多轮结构要求翻译过程维持指令与响应的逻辑连贯性,而低资源语言的语料稀缺性进一步增加了高质量数据生成的难度。
常用场景
经典使用场景
在低资源语言技术领域,Code-170k-rundi数据集通过17.7万组编程对话的隆迪语翻译版本,为构建本土化编程教育工具提供了核心语料。该数据集典型应用于训练专精于代码生成与程序解析的隆迪语大语言模型,支持多轮技术对话场景下的指令微调,涵盖算法设计、数据结构实现及调试技巧等编程核心议题。
衍生相关工作
该数据集已催生多项跨语言代码生成领域的创新研究,包括基于对比学习的低资源语言指令微调框架、编程知识的多语言对齐模型等。相关工作进一步拓展至非洲语言技术生态建设,衍生出面向斯瓦希里语、豪萨语等非洲语言的代码数据集构建范式,形成技术辐射效应。
数据集最近研究
最新研究方向
在低资源语言技术领域,Code-170k-rundi数据集正推动编程教育本土化的前沿探索。该数据集通过将17万条编程对话翻译成隆迪语,为非洲语言社区的代码生成研究开辟了新路径。当前研究聚焦于跨语言指令调优技术,旨在解决低资源语言在人工智能辅助编程中的语义对齐难题。随着全球数字包容性倡议的推进,这类多语言代码数据集正成为消弭技术鸿沟的关键载体,其应用已延伸至教育公平性评估和文化遗产数字化保护等交叉领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作