five

Code-170k-krio

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-krio
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-krio 是一个包含 176,999 次编程对话的开创性数据集,这些对话最初来源于 glaiveai/glaive-code-assistant-v2 并翻译成克里奥语,使克里奥语使用者能够接触编程教育。数据集包含关于编程和编码的高质量多轮对话,涵盖算法、数据结构、调试、最佳实践等多种主题,适用于大型语言模型的指令微调。
创建时间:
2025-10-20
原始信息汇总

Code-170k-krio 数据集概述

基本信息

  • 数据集名称: Code-170k-krio
  • 创建者: michsethowusu
  • 许可证: Apache 2.0
  • 语言: 克里奥尔语(Krio)
  • 任务类别: 文本生成、问答
  • 规模分类: 100K<n<1M

数据集规模

  • 训练集样本数量: 176,999
  • 训练集大小: 328,065,249字节
  • 下载大小: 164,032,624字节

核心特征

  • 数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译
  • 内容类型: 编程对话和编码相关对话
  • 对话轮次: 多轮对话格式
  • 语言: 纯克里奥尔语

数据结构

数据字段

  • conversations: 对话列表
    • from: 说话者身份("human"或"gpt")
    • value: 克里奥尔语的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[克里奥尔语的问题]" }, { "from": "gpt", "value": "[克里奥尔语的回答]" } ] }

应用场景

  • 训练克里奥尔语编码助手
  • 构建克里奥尔开发者教育工具
  • 多语言代码生成研究
  • 克里奥尔语编程教程开发
  • 低资源语言人工智能发展支持

主题覆盖

  • 算法
  • 数据结构
  • 调试
  • 最佳实践
  • 其他编程概念

技术特性

  • 适用于大语言模型的指令调优
  • 支持低资源语言开发
  • 多语言能力
  • 高质量对话内容
搜集汇总
数据集介绍
main_image_url
构建方式
在编程教育领域,Code-170k-krio数据集基于glaiveai/glaive-code-assistant-v2的原始编程对话资源,通过系统化翻译流程转化为克里奥尔语版本。该构建过程涉及对17万条高质量编程对话的精准语言转换,涵盖算法设计、数据结构应用及调试技巧等多元主题,确保技术术语在低资源语言环境中的准确表达。
特点
该数据集的核心特征体现在其纯克里奥尔语编程对话的稀缺性,共包含176,999条多轮技术交流记录。对话结构采用人机交互模式,每条记录均标注发言者身份与对应内容,完整呈现从问题提出到解决方案的思维脉络。其内容广度覆盖软件开发全生命周期,为低资源语言区的计算机教育提供了前所未有的语言适配资源。
使用方法
研究人员可通过Hugging Face标准数据加载接口直接调用该数据集,使用load_dataset方法即可获取完整训练集。典型应用场景包括构建克里奥尔语编程助手模型,支持多轮对话生成的指令微调实验。数据字段中的conversations列表可直接用于语言模型训练,每条对话记录均包含自然语言与编程概念的深度融合范例。
背景与挑战
背景概述
随着人工智能在编程教育领域的深入应用,多语言代码助手的发展成为推动计算思维普及的关键。Code-170k-krio数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2构建,通过将17.7万条编程对话翻译成克里奥语,致力于解决低资源语言群体在编程教育中的语言壁垒。该数据集覆盖算法设计、数据结构及调试实践等核心编程概念,为克里奥语开发者提供了本土化的学习资源,显著促进了边缘化语言社区的技术赋能与教育公平。
当前挑战
该数据集首要挑战在于解决低资源语言编程辅助的稀缺性,克里奥语作为西非区域性语言,长期缺乏结构化的技术教育资料,导致本地开发者面临知识获取障碍。在构建过程中,专业编程术语的跨语言对齐与语义保真度成为关键难点,需确保技术概念在翻译过程中不丢失逻辑严谨性。同时,多轮对话的语境连贯性与代码示例的文化适应性亦需精细设计,以维持教育内容的技术准确性与语言自然度。
常用场景
经典使用场景
在编程教育领域,Code-170k-krio数据集通过17.7万条克里奥尔语编程对话,为构建本土化代码助手提供了核心训练素材。这些多轮对话涵盖算法设计、数据结构应用及调试技巧等主题,显著降低了克里奥尔语使用者学习编程的门槛,尤其适用于低资源语言环境下的技术知识传播。
实际应用
实际应用中,该数据集已赋能克里奥尔语编程教学工具的研发,使本土开发者能通过母语获取技术指导。教育机构可基于此开发交互式编程课程,科技企业则能构建本土化开发支持系统,显著提升西非地区数字人才培养效率,为区域数字化转型注入持续动力。
衍生相关工作
受该数据集启发,研究者已衍生出多个克里奥尔语代码生成项目,如基于指令微调的多模态编程助手。这些工作不仅扩展了低资源语言在AI4Code领域的研究边界,更催生了面向特定编程场景的方言优化模型,为后续跨语言技术迁移研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作