Code-170k-yoruba

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-yoruba

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-yoruba是一个包含176,999个编程对话的数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成约鲁巴语，使约鲁巴语使用者能够接触编程教育。数据集包含多轮对话，覆盖了各种编程概念，话题包括算法、数据结构、调试、最佳实践等，适合对大型语言模型进行指令微调。

创建时间：

2025-10-20

原始信息汇总

Code-170k-yoruba 数据集概述

基本信息

数据集名称: Code-170k-yoruba
语言: 约鲁巴语 (yo)
许可证: Apache 2.0
数据规模: 100K<n<1M
任务类别: 文本生成、问答

数据集描述

Code-170k-yoruba 是一个包含 176,999 个编程对话的开创性数据集，原始数据来源于 glaiveai/glaive-code-assistant-v2，并翻译成约鲁巴语，使约鲁巴语使用者能够接触编程教育。

关键特性

176,999 个高质量对话，涉及编程和编码
纯约鲁巴语 - 普及编程教育
多轮对话，涵盖各种编程概念
多样化主题: 算法、数据结构、调试、最佳实践等
适用于大型语言模型的指令调优

数据集结构

数据字段

conversations: 对话轮次列表，每个轮次包含：
- from: 发言者（"human" 或 "gpt"）
- value: 约鲁巴语的消息内容

数据拆分

训练集: 176,999 个样本，337,232,016 字节
下载大小: 168,616,008 字节
数据集大小: 337,232,016 字节

使用案例

训练约鲁巴语编码助手
为约鲁巴开发者构建教育工具
研究多语言代码生成
创建约鲁巴语编程教程
支持低资源语言人工智能开发

引用信息

bibtex @dataset{code170k_yoruba, title={Code-170k-yoruba: Programming Conversations in Yoruba}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-yoruba} }

搜集汇总

数据集介绍

构建方式

在促进低资源语言技术发展的背景下，Code-170k-yoruba数据集通过精心设计的流程构建而成。其原始数据源自glaiveai/glaive-code-assistant-v2，包含丰富的编程对话内容。这些对话经过专业翻译流程转化为约鲁巴语，最终形成包含176,999个高质量对话样本的训练集，每个样本都严格遵循多轮对话结构，确保语言准确性和技术专业性。

特点

作为专注于编程教育领域的多语言数据集，Code-170k-yoruba展现出独特的语言特征。数据集完全采用约鲁巴语呈现，涵盖算法设计、数据结构、调试技巧等多元编程主题。其多轮对话结构模拟真实教学场景，每个对话包含人类提问与AI回复的完整交互序列。这种设计既保留了原始数据的技术深度，又实现了语言的本土化转换，为低资源语言社区的编程教育提供了重要支撑。

使用方法

在自然语言处理应用场景中，该数据集主要通过Hugging Face生态系统进行访问和利用。研究人员可使用datasets库的load_dataset函数直接加载数据集，通过指定数据集标识符即可获取完整的训练数据。加载后的数据以标准化的字典格式呈现，其中conversations字段包含有序的对话轮次，每个轮次明确标注发言者身份和对应的约鲁巴语内容。这种结构便于直接用于语言模型的指令微调，支持构建面向约鲁巴语社区的编程辅助工具。

背景与挑战

背景概述

在人工智能与自然语言处理领域，低资源语言的数字化发展长期面临数据稀缺的困境。Code-170k-yoruba数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2构建，旨在通过翻译17.7万条编程对话至约鲁巴语，推动该语言在编程教育中的普及。该数据集聚焦于多轮对话的代码生成与问题解答任务，为约鲁巴语使用者提供了高质量的技术交流资源，显著促进了低资源语言在计算语言学与教育技术领域的应用。

当前挑战

该数据集致力于解决低资源语言编程辅助中的核心挑战，包括约鲁巴语技术术语的标准化翻译、代码与自然语言混合表达的准确性，以及多轮对话上下文的语义一致性维护。在构建过程中，面临大规模双语对齐的复杂性，需克服原始编程对话的领域专业性，同时确保约鲁巴语语法结构与编程逻辑的无损转换，这对机器翻译与语言模型的跨语言适应能力提出了极高要求。

常用场景

经典使用场景

在低资源语言技术发展领域，Code-170k-yoruba数据集通过17万条约鲁巴语编程对话，为构建本土化代码助手提供了核心训练素材。这些多轮对话涵盖算法实现、数据结构解析及调试技巧等编程核心知识，有效支撑了面向约鲁巴语开发者的智能编程工具开发。该资源显著降低了非洲语言群体接触计算机科学的教育门槛，为跨语言知识迁移树立了典范。

实际应用

在教育科技实践层面，本数据集正驱动着约鲁巴语编程教学平台的开发。非洲地区的技术培训课程可基于此构建本土化代码教学系统，使母语者能通过熟悉语言掌握编程思维。各类开发工具集成约鲁巴语代码提示功能后，显著提升了当地程序员的开发效率，为数字时代语言平等提供了技术支撑。

衍生相关工作

受该数据集启发，研究社区已衍生出多个跨语言代码生成项目。例如基于该语料训练的YorubaCoder模型实现了约鲁巴语到Python的代码转换，另有团队开发出支持非洲语言的VS Code扩展工具。这些工作持续拓展多语言编程辅助系统的边界，为全球语言技术生态的多元化发展注入了新动力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集