five

Code-170k-ndebele-south

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-ndebele-south
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-ndebele-south是一个包含176,999个编程对话的数据集,这些对话被翻译成南恩德贝莱语(Ndebele South),使南恩德贝莱语使用者能够接受编程教育。数据集覆盖了算法、数据结构、调试、最佳实践等多种编程主题,并适用于大型语言模型的指令微调。
创建时间:
2025-10-20
原始信息汇总

Code-170k-ndebele-south 数据集概述

基本信息

  • 数据集名称: Code-170k-ndebele-south
  • 语言: 南恩德贝莱语 (nr)
  • 许可证: Apache 2.0
  • 数据规模: 100K<n<1M
  • 下载大小: 47,951,126 字节
  • 数据集大小: 95,902,252 字节

数据集描述

Code-170k-ndebele-south 是一个包含 176,999 个编程对话的数据集,原始数据来源于 glaiveai/glaive-code-assistant-v2,并翻译成南恩德贝莱语,旨在为南恩德贝莱语使用者提供编程教育支持。

关键特征

  • 176,999 个高质量编程对话
  • 纯南恩德贝莱语内容
  • 多轮对话格式
  • 多样化主题: 算法、数据结构、调试、最佳实践等
  • 适用于大语言模型的指令调优

数据集结构

数据字段

  • conversations: 对话轮次列表
    • from: 说话者 ("human" 或 "gpt")
    • value: 南恩德贝莱语的消息内容

数据分割

  • 训练集: 176,999 个样本

使用场景

  • 训练南恩德贝莱语编程助手
  • 为南恩德贝莱语开发者构建教育工具
  • 多语言代码生成研究
  • 创建南恩德贝莱语编程教程
  • 支持低资源语言AI开发

标签分类

  • code
  • programming
  • nr
  • ndebele-(south)
  • african-languages
  • low-resource
  • multilingual
  • instruction-tuning

任务类别

  • 文本生成
  • 问答系统
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言技术发展的背景下,Code-170k-ndebele-south数据集通过创新性的跨语言迁移方法构建而成。其核心流程是从glaiveai/glaive-code-assistant-v2数据集中精选17.7万组编程对话,经由专业翻译团队将其完整转化为南恩德贝莱语。每个对话单元严格遵循多轮对话结构,包含人类提问与AI助手的完整交互记录,最终形成标准化JSON格式的语料库,为南恩德贝莱语区的编程教育奠定数据基础。
特点
作为非洲低资源语言技术的重要突破,该数据集呈现出显著的多元特征。其囊括算法设计、数据结构、代码调试等全方位编程知识,通过纯南恩德贝莱语的多轮对话形式展现。数据集采用清晰的对话树结构,每个会话单元均标注发言者身份与对应内容,不仅保障了语言的地道性,更保持了技术知识的专业准确度,为开发南恩德贝莱语编程助手提供了高质量训练素材。
使用方法
在跨语言人工智能应用场景中,研究者可通过HuggingFace标准接口快速加载该数据集。使用load_dataset函数调用数据集标识符后,即可访问包含17.7万组对话的训练集。每段对话以列表形式存储连续交互过程,用户可遍历conversations字段获取完整对话流,这种结构化设计特别适合用于指令微调、对话系统构建等自然语言处理任务,有效支持南恩德贝莱语编程教育工具的开发。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的数字化发展长期面临数据稀缺的困境。Code-170k-ndebele-south数据集由研究团队于2025年构建,基于glaiveai/glaive-code-assistant-v2的编程对话数据,通过专业翻译转化为南恩德贝莱语版本。该数据集聚焦于跨语言代码生成与教育普及,旨在为南恩德贝莱语使用者提供本土化的编程学习资源,推动非洲语言在计算语言学中的技术包容性发展。
当前挑战
该数据集致力于解决低资源语言编程教育中的语言壁垒问题,其核心挑战在于高质量双语语料的稀缺性与专业术语的准确转译。构建过程中需克服南恩德贝莱语编程术语体系缺失的障碍,确保17万条对话在保留技术准确性的同时符合语言文化习惯。多轮对话结构的完整性维护与低资源语言模型适配性优化,亦是实现有效指令调优的关键难点。
常用场景
经典使用场景
在低资源语言技术发展领域,该数据集通过17.7万条编程对话的南恩德贝莱语翻译版本,为构建本土化代码助手提供了核心训练素材。其多轮对话结构覆盖算法实现、调试技巧等编程全流程,显著提升了模型理解用民族语言表述复杂技术概念的能力,成为跨语言代码生成研究的基准资源。
实际应用
面向南恩德贝莱语社区的编程教育场景,该数据集支撑开发了系列本土化智能教学工具。这些应用能实时解答编程问题、提供代码调试建议,使母语使用者无需依赖英语即可掌握计算机科学知识,切实降低了技术学习的语言门槛,助力非洲地区数字人才培养。
衍生相关工作
基于此数据集衍生的经典工作包括Glaive代码助手模型的跨语言适配研究,以及多模态编程教学系统的开发。这些成果构建了从语料构建到模型优化的完整技术链条,为后续祖鲁语、科萨语等非洲语言的类似项目提供了可复现的范式参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作