Code-170k-oromo

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-oromo

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-oromo是一个包含176,999个编程对话的数据集，这些对话是从英文翻译成奥罗莫语的，旨在让奥罗莫语使用者能够接触编码教育。数据集包含关于编程概念的多轮对话，话题涵盖算法、数据结构、调试、最佳实践等。该数据集适合用于训练奥罗莫语编程助手、构建教育工具、进行多语言代码生成研究、创建奥罗莫语编程教程以及支持低资源语言的AI开发。

创建时间：

2025-10-20

原始信息汇总

Code-170k-oromo 数据集概述

基本信息

数据集名称: Code-170k-oromo
数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-oromo
许可证: Apache 2.0
语言: 奥罗莫语 (om)

数据集规模

训练集样本数量: 176,999
训练集大小: 343,994,658 字节
下载大小: 171,997,329 字节

数据集特征

数据格式

主要特征: conversations
对话结构: 列表形式，每个对话轮次包含：
- from: 说话者标识（"human" 或 "gpt"）
- value: 奥罗莫语消息内容

示例结构

python { "conversations": [ { "from": "human", "value": "[奥罗莫语问题]" }, { "from": "gpt", "value": "[奥罗莫语回答]" } ] }

数据集特点

内容类型: 编程对话和代码相关对话
对话形式: 多轮对话
主题范围: 算法、数据结构、调试、最佳实践等编程概念
数据质量: 高质量对话内容
适用场景: 大型语言模型的指令调优

任务类别

文本生成
问答系统

标签分类

代码
编程
奥罗莫语
非洲语言
低资源语言
多语言
指令调优

使用方式

python from datasets import load_dataset

dataset = load_dataset("michsethowusu/Code-170k-oromo") train_data = dataset[train]

数据来源

原始数据集: glaiveai/glaive-code-assistant-v2
处理方式: 翻译为奥罗莫语

引用格式

bibtex @dataset{code170k_oromo, title={Code-170k-oromo: Programming Conversations in Oromo}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-oromo} }

搜集汇总

数据集介绍

构建方式

在低资源语言技术发展的背景下，Code-170k-oromo数据集通过跨语言迁移策略构建而成。原始数据源自glaive-code-assistant-v2的编程对话语料，经过专业翻译流程转化为奥罗莫语版本。该过程严格遵循语言对等原则，确保17.7万条对话在保留编程专业知识的同时，完整呈现多轮对话的交互结构，为奥罗莫语社区构建了高质量的代码教育资源。

特点

作为面向非洲低资源语言的专项语料，本数据集最显著的特点是实现了编程知识与民族语言的深度融合。其内容涵盖算法设计、数据结构、调试技巧等计算机科学核心领域，每条记录均以纯奥罗莫语呈现多轮对话形式。这种设计既保持了技术文档的精确性，又兼顾了教学对话的连贯性，为开发奥罗莫语编程助手提供了完整的语言实践场景。

使用方法

在自然语言处理应用场景中，研究者可通过HuggingFace标准接口直接加载该数据集进行模型训练。使用load_dataset函数调用数据集标识符后，开发者可访问包含17.7万样本的训练分割，每个样本的conversations字段包含交替排列的人类提问与AI回复。这种结构化设计特别适合指令微调任务，能有效支撑奥罗莫语代码生成模型的开发与评估工作。

背景与挑战

背景概述

随着自然语言处理技术在编程教育领域的深入应用，多语言代码助手已成为促进全球编程教育公平的重要工具。Code-170k-oromo数据集由研究团队于2025年构建，其核心目标是通过将17.7万条编程对话翻译成奥罗莫语，解决低资源语言群体在获取编程教育资源时面临的语言障碍。该数据集基于glaiveai/glaive-code-assistant-v2的原始语料，覆盖算法设计、数据结构及调试实践等多维度编程知识，为奥罗莫语开发者构建本土化教育工具提供了关键数据支撑，显著推动了低资源语言在人工智能辅助编程领域的发展。

当前挑战

在编程教育领域，低资源语言常因缺乏高质量语料而难以实现有效的代码生成与理解，奥罗莫语作为非洲主要语言之一，其技术术语体系尚未完善，导致模型在处理专业编程概念时面临语义歧义问题。数据集构建过程中，翻译团队需克服编程术语的文化适配挑战，确保奥罗莫语对话既保留技术准确性又符合本地表达习惯；同时，多轮对话结构的完整性维护要求对原始语料的逻辑连贯性进行严格校验，以避免知识传递的断裂。

常用场景

经典使用场景

在计算语言学的跨语言迁移研究中，Code-170k-oromo数据集为低资源语言环境下的编程教育提供了关键支持。该数据集通过17.6万条奥罗莫语编程对话，构建了多轮交互式学习框架，涵盖算法设计、数据结构实现及代码调试等核心编程概念，显著提升了非英语母语学习者的技术理解能力。

衍生相关工作

该数据集已催生系列跨语言代码生成研究，如基于翻译增强的预训练模型架构、低资源语言指令微调范式等创新工作。相关研究通过迁移学习将高资源语言编程知识注入奥罗莫语模型，为埃塞俄比亚等地区的数字化建设提供了关键技术基础设施。

数据集最近研究