five

Code-170k-dinka

收藏
Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-dinka
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-dinka是一个包含176,999个编程对话的数据集,翻译成了丁卡语,旨在让丁卡语使用者能够学习编程。
创建时间:
2025-10-20
原始信息汇总

Code-170k-dinka 数据集概述

基本信息

  • 数据集名称:Code-170k-dinka
  • 数据集地址:https://huggingface.co/datasets/michsethowusu/Code-170k-dinka
  • 许可证:Apache 2.0
  • 语言:丁卡语(Dinka)
  • 任务类别:文本生成、问答
  • 规模分类:100K<n<1M

数据集规模

  • 训练集样本数量:176,999
  • 训练集大小:325,021,039字节
  • 下载大小:162,510,519字节

核心特征

  • 数据来源:基于glaiveai/glaive-code-assistant-v2数据集翻译为丁卡语
  • 内容类型:176,999个高质量编程对话
  • 语言特性:纯丁卡语内容
  • 对话结构:多轮对话形式
  • 主题覆盖:算法、数据结构、调试、最佳实践等编程概念

数据结构

数据字段

  • conversations:对话轮次列表
    • from:发言者("human"或"gpt")
    • value:丁卡语消息内容

数据示例

python { "conversations": [ {"from": "human", "value": "[丁卡语问题]"}, {"from": "gpt", "value": "[丁卡语回答]"} ] }

主要用途

  • 训练丁卡语编程助手
  • 构建丁卡开发者教育工具
  • 多语言代码生成研究
  • 创建丁卡语编程教程
  • 支持低资源语言AI开发

技术标签

  • code
  • programming
  • din
  • dinka
  • african-languages
  • low-resource
  • multilingual
  • instruction-tuning
搜集汇总
数据集介绍
main_image_url
构建方式
在促进低资源语言技术发展的背景下,Code-170k-dinka数据集通过精心设计的多阶段流程构建而成。其原始数据源自glaiveai/glaive-code-assistant-v2的编程对话集合,经过专业翻译团队将其内容完整转化为丁卡语。构建过程中严格遵循质量把控标准,确保17万条对话在语言转换后仍保持编程知识的准确性与逻辑连贯性,最终形成适用于指令调优的结构化数据集。
特点
作为专注于编程教育领域的多语言资源,该数据集呈现出显著的独特性。其核心价值在于完整覆盖算法设计、数据结构、调试技巧等编程核心概念,全部内容均以丁卡语呈现。数据集采用多轮对话格式组织,每条记录包含人类提问与AI回复的交替序列,这种设计完美模拟了真实编程辅导场景。特别值得关注的是,该资源填补了丁卡语编程教育材料的空白,为低资源语言社区的科技发展提供了重要支撑。
使用方法
在具体应用层面,研究者可通过Hugging Face生态系统便捷加载此数据集。使用标准datasets库调用load_dataset函数即可获取全部训练样本,每个样本包含完整的对话序列及其元数据。该数据集主要服务于丁卡语编程助手的开发训练,可作为指令调优任务的基础语料。实际使用时,开发者可提取conversations字段中的人类指令与模型回应,构建端到端的对话训练流程,亦可用于跨语言代码生成能力的对比研究。
背景与挑战
背景概述
随着人工智能在编程教育领域的深入应用,多语言代码生成技术逐渐成为研究热点。Code-170k-dinka数据集由研究团队基于glaiveai/glaive-code-assistant-v2转化重构,于2025年正式发布。该数据集聚焦于丁卡语编程对话场景,通过17.7万条高质量对话实例,为低资源语言社区构建编程教育基础设施。其核心价值在于突破语言壁垒,使丁卡语使用者能通过母语掌握算法设计、数据结构等计算机科学核心概念,对促进全球技术教育公平具有里程碑意义。
当前挑战
在编程教育领域,低资源语言的代码理解与生成长期面临语义对齐难题。丁卡语作为非洲代表性语言,其编程术语体系缺乏标准化映射,导致模型在解释递归算法等抽象概念时易产生歧义。数据集构建过程中,专业编程术语的跨文化转译成为主要障碍,需要协调语言学规则与计算机科学术语体系的双重约束。此外,对话逻辑的连贯性维护要求翻译过程保持技术准确性与教学有效性的平衡,这对低资源语言的技术文档本地化提出了新的标准。
常用场景
经典使用场景
在低资源语言技术领域,该数据集为构建丁卡语编程助手提供了核心训练素材。其多轮对话结构能够模拟真实的教学互动场景,涵盖算法设计、代码调试等编程全流程,显著提升了丁卡语开发者的技术学习效率。
衍生相关工作
基于该数据集已衍生出多个丁卡语代码生成模型,如专注重构代码解释器的Dinka-Coder系列。相关研究进一步拓展至非洲语言族群的编程教育评估体系,形成了低资源语言技术发展的良性生态。
数据集最近研究
最新研究方向
在低资源语言计算语言学领域,Code-170k-dinka数据集正推动跨语言代码生成的前沿探索。该数据集将17万编程对话译为丁卡语,填补了非洲本土语言在技术教育中的空白,促进了多语言大模型指令微调的研究。当前热点聚焦于构建丁卡语编程助手,通过迁移学习提升低资源语言的代码理解能力,同时推动数字包容性发展。这一举措不仅为丁卡语社区提供了本土化学习工具,更为全球多语言技术公平性研究提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作