five

Code-170k-yoruba

收藏
Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-yoruba
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-yoruba是一个包含176,999个编程对话的数据集,这些对话最初来源于glaiveai/glaive-code-assistant-v2,并翻译成约鲁巴语,使约鲁巴语使用者能够接触编程教育。数据集包含多轮对话,覆盖了各种编程概念,话题包括算法、数据结构、调试、最佳实践等,适合对大型语言模型进行指令微调。
创建时间:
2025-10-20
原始信息汇总

Code-170k-yoruba 数据集概述

基本信息

  • 数据集名称: Code-170k-yoruba
  • 语言: 约鲁巴语 (yo)
  • 许可证: Apache 2.0
  • 数据规模: 100K<n<1M
  • 任务类别: 文本生成、问答

数据集描述

Code-170k-yoruba 是一个包含 176,999 个编程对话的开创性数据集,原始数据来源于 glaiveai/glaive-code-assistant-v2,并翻译成约鲁巴语,使约鲁巴语使用者能够接触编程教育。

关键特性

  • 176,999 个高质量对话,涉及编程和编码
  • 纯约鲁巴语 - 普及编程教育
  • 多轮对话,涵盖各种编程概念
  • 多样化主题: 算法、数据结构、调试、最佳实践等
  • 适用于大型语言模型的指令调优

数据集结构

数据字段

  • conversations: 对话轮次列表,每个轮次包含:
    • from: 发言者("human" 或 "gpt")
    • value: 约鲁巴语的消息内容

数据拆分

  • 训练集: 176,999 个样本,337,232,016 字节
  • 下载大小: 168,616,008 字节
  • 数据集大小: 337,232,016 字节

使用案例

  • 训练约鲁巴语编码助手
  • 为约鲁巴开发者构建教育工具
  • 研究多语言代码生成
  • 创建约鲁巴语编程教程
  • 支持低资源语言人工智能开发

标签

  • code
  • programming
  • yo
  • yoruba
  • african-languages
  • low-resource
  • multilingual
  • instruction-tuning

引用信息

bibtex @dataset{code170k_yoruba, title={Code-170k-yoruba: Programming Conversations in Yoruba}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-yoruba} }

搜集汇总
数据集介绍
main_image_url
构建方式
在促进低资源语言技术发展的背景下,Code-170k-yoruba数据集通过精心设计的流程构建而成。其原始数据源自glaiveai/glaive-code-assistant-v2,包含丰富的编程对话内容。这些对话经过专业翻译流程转化为约鲁巴语,最终形成包含176,999个高质量对话样本的训练集,每个样本都严格遵循多轮对话结构,确保语言准确性和技术专业性。
特点
作为专注于编程教育领域的多语言数据集,Code-170k-yoruba展现出独特的语言特征。数据集完全采用约鲁巴语呈现,涵盖算法设计、数据结构、调试技巧等多元编程主题。其多轮对话结构模拟真实教学场景,每个对话包含人类提问与AI回复的完整交互序列。这种设计既保留了原始数据的技术深度,又实现了语言的本土化转换,为低资源语言社区的编程教育提供了重要支撑。
使用方法
在自然语言处理应用场景中,该数据集主要通过Hugging Face生态系统进行访问和利用。研究人员可使用datasets库的load_dataset函数直接加载数据集,通过指定数据集标识符即可获取完整的训练数据。加载后的数据以标准化的字典格式呈现,其中conversations字段包含有序的对话轮次,每个轮次明确标注发言者身份和对应的约鲁巴语内容。这种结构便于直接用于语言模型的指令微调,支持构建面向约鲁巴语社区的编程辅助工具。
背景与挑战
背景概述
在人工智能与自然语言处理领域,低资源语言的数字化发展长期面临数据稀缺的困境。Code-170k-yoruba数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2构建,旨在通过翻译17.7万条编程对话至约鲁巴语,推动该语言在编程教育中的普及。该数据集聚焦于多轮对话的代码生成与问题解答任务,为约鲁巴语使用者提供了高质量的技术交流资源,显著促进了低资源语言在计算语言学与教育技术领域的应用。
当前挑战
该数据集致力于解决低资源语言编程辅助中的核心挑战,包括约鲁巴语技术术语的标准化翻译、代码与自然语言混合表达的准确性,以及多轮对话上下文的语义一致性维护。在构建过程中,面临大规模双语对齐的复杂性,需克服原始编程对话的领域专业性,同时确保约鲁巴语语法结构与编程逻辑的无损转换,这对机器翻译与语言模型的跨语言适应能力提出了极高要求。
常用场景
经典使用场景
在低资源语言技术发展领域,Code-170k-yoruba数据集通过17万条约鲁巴语编程对话,为构建本土化代码助手提供了核心训练素材。这些多轮对话涵盖算法实现、数据结构解析及调试技巧等编程核心知识,有效支撑了面向约鲁巴语开发者的智能编程工具开发。该资源显著降低了非洲语言群体接触计算机科学的教育门槛,为跨语言知识迁移树立了典范。
实际应用
在教育科技实践层面,本数据集正驱动着约鲁巴语编程教学平台的开发。非洲地区的技术培训课程可基于此构建本土化代码教学系统,使母语者能通过熟悉语言掌握编程思维。各类开发工具集成约鲁巴语代码提示功能后,显著提升了当地程序员的开发效率,为数字时代语言平等提供了技术支撑。
衍生相关工作
受该数据集启发,研究社区已衍生出多个跨语言代码生成项目。例如基于该语料训练的YorubaCoder模型实现了约鲁巴语到Python的代码转换,另有团队开发出支持非洲语言的VS Code扩展工具。这些工作持续拓展多语言编程辅助系统的边界,为全球语言技术生态的多元化发展注入了新动力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作