five

Code-170k-shona

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-shona
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-shona是一个包含176,999个编程对话的数据集,这些对话是从glaiveai/glaive-code-assistant-v2翻译成Shona语言的,使得Shona语使用者能够接触编码教育。它包含纯Shona语言的对话,涵盖各种编程概念的多轮对话,适用于训练Shona语言的编码助手、构建教育工具、研究多语言代码生成、创建Shona语言的编程教程以及支持低资源语言的AI开发。
创建时间:
2025-10-20
原始信息汇总

Code-170k-shona 数据集概述

数据集基本信息

  • 数据集名称: Code-170k-shona
  • 数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-shona
  • 许可证: Apache 2.0
  • 语言: 绍纳语 (sn)
  • 任务类别: 文本生成、问答
  • 规模分类: 100K<n<1M

数据集规模

  • 训练集样本数量: 176,999
  • 训练集大小: 328,319,793 字节
  • 下载大小: 164,159,896 字节
  • 数据集总大小: 328,319,793 字节

数据集描述

Code-170k-shona 是一个突破性的数据集,包含 176,999 个编程对话,最初来源于 glaiveai/glaive-code-assistant-v2 并翻译成绍纳语,使绍纳语使用者能够接触编程教育。

主要特征

  • 176,999 个高质量对话,涉及编程和编码
  • 纯绍纳语 - 普及编程教育
  • 多轮对话,涵盖各种编程概念
  • 多样化主题: 算法、数据结构、调试、最佳实践等
  • 适用于大型语言模型的指令调优

数据格式

数据字段

  • conversations: 对话轮次列表,每个轮次包含:
    • from: 说话者("human" 或 "gpt")
    • value: 绍纳语的消息内容

示例结构

python { "conversations": [ { "from": "human", "value": "[绍纳语问题]" }, { "from": "gpt", "value": "[绍纳语回答]" } ] }

使用场景

  • 训练绍纳语编码助手
  • 为绍纳开发者构建教育工具
  • 研究多语言代码生成
  • 创建绍纳语编程教程
  • 支持低资源语言人工智能开发

标签

  • code
  • programming
  • sn
  • shona
  • african-languages
  • low-resource
  • multilingual
  • instruction-tuning
搜集汇总
数据集介绍
main_image_url
构建方式
在编程教育资源稀缺的背景下,Code-170k-shona数据集通过创新性的跨语言转换技术构建而成。其核心方法是从glaiveai/glaive-code-assistant-v2数据源中提取17.7万组编程对话,经由专业语言处理流程将其完整翻译为绍纳语。这种构建策略既保留了原始编程知识的专业性与准确性,又实现了语言载体的本土化转换,为低资源语言社区的编程教育奠定了数据基础。
特点
该数据集最显著的特征在于其语言资源的稀缺性与专业性并存。作为目前规模最大的绍纳语编程对话数据集,它包含涵盖算法设计、数据结构、调试技巧等多元主题的多轮对话。每个对话单元均采用标准化的双字段结构,通过human-gpt角色交互模式呈现编程知识。这种设计既确保了教学对话的逻辑连贯性,又为语言模型的指令微调提供了高质量的训练样本。
使用方法
在技术应用层面,研究者可通过Hugging Face数据集库直接加载该资源。使用标准数据加载接口即可获取完整的训练集,其中每个样本均以对话列表形式组织,包含交替排列的人类提问与AI回复。这种结构化设计便于直接接入语言模型训练流程,特别适用于开发绍纳语编程助手、构建跨语言代码生成系统等教育技术场景,为低资源语言社区的数字化教育提供技术支撑。
背景与挑战
背景概述
在低资源语言计算语言学快速发展的背景下,Code-170k-shona数据集于2025年由Hugging Face平台的研究者创建,旨在解决绍纳语编程教育资源的稀缺性问题。该数据集基于glaiveai/glaive-code-assistant-v2的原始语料,通过系统化翻译构建了包含17.7万轮编程对话的语料库,覆盖算法设计、数据结构及调试技术等核心编程概念。作为首个面向绍纳语的大规模编程对话数据集,其显著推动了非洲本土语言在代码生成与教育技术领域的应用进程。
当前挑战
构建过程面临双重挑战:在领域问题层面,需克服低资源语言代码语义对齐的复杂性,确保编程术语在绍纳语中的准确表达与概念一致性;在技术实施层面,既要维持原始代码逻辑的完整性,又需处理绍纳语语法结构与编程语言混合表征的兼容性问题。此外,数据规模与质量平衡亦构成关键难点,需在保持对话流畅性的同时,实现技术概念的本土化转译。
常用场景
经典使用场景
在低资源语言技术领域,Code-170k-shona数据集为构建绍纳语编程助手提供了核心训练素材。该数据集通过17.6万条高质量编程对话,覆盖算法设计、数据结构实现及代码调试等关键编程概念,为多轮对话式代码生成任务奠定了语言基础。其独特的绍纳语指令微调特性,使得模型能够理解并生成符合当地语言习惯的技术内容,显著提升了编程知识在非洲语言社群中的传播效率。
实际应用
在实际应用层面,该数据集支撑了面向绍纳语使用者的智能编程教育平台开发。教育机构可基于此构建本土化编程教程系统,技术企业能开发具备绍纳语交互能力的代码辅助工具。这些应用不仅降低了非洲开发者接触前沿技术的语言门槛,更为联合国可持续发展目标中的数字包容性提供了具体技术实现路径。
衍生相关工作
受该数据集启发,研究社区已衍生出多个重要研究方向。包括基于跨语言迁移学习的低资源代码生成模型架构、面向非洲语言的编程术语标准化研究,以及多模态编程教学系统的本土化适配工作。这些衍生成果正逐步形成覆盖技术文档翻译、智能编程导师、跨文化计算机教育等领域的完整技术生态链。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作