Code-170k-acholi

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-acholi

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-acholi是一个包含176,999个编程对话的突破性数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成阿乔利语，使阿乔利语使用者能够接受编程教育。该数据集具有以下特点：176,999个高质量的编程和编码对话，纯阿乔利语言，涵盖多种编程概念的多人对话，涵盖算法、数据结构、调试、最佳实践等多种主题，且适用于大型语言模型的指令调整。

创建时间：

2025-10-19

原始信息汇总

Code-170k-acholi 数据集概述

基本信息

数据集名称: Code-170k-acholi
发布日期: 2025年
发布平台: Hugging Face
许可证: Apache 2.0
语言: 阿乔利语 (ach)

数据集规模

训练集样本数量: 176,999个对话
训练集大小: 310,934,732字节
下载大小: 155,467,366字节
规模分类: 100K<n<1M

数据特征

数据结构

主要字段: conversations
对话结构: 多轮对话列表
对话角色: human（人类）和gpt（AI助手）
内容语言: 纯阿乔利语

数据格式

python { "conversations": [ { "from": "human", "value": "[阿乔利语问题]" }, { "from": "gpt", "value": "[阿乔利语回答]" } ] }

数据来源与特点

原始来源: glaiveai/glaive-code-assistant-v2
翻译语言: 英语到阿乔利语
内容类型: 编程对话和代码相关讨论
主题范围: 算法、数据结构、调试、最佳实践等编程概念

任务类别

文本生成
问答系统

应用场景

阿乔利语编程助手训练
阿乔利开发者教育工具开发
多语言代码生成研究
阿乔利语编程教程创建
低资源语言AI开发支持

数据集标签

code（代码）
programming（编程）
ach（阿乔利语）
acholi（阿乔利）
african-languages（非洲语言）
low-resource（低资源）
multilingual（多语言）
instruction-tuning（指令调优）

搜集汇总

数据集介绍

构建方式

在促进低资源语言技术发展的背景下，Code-170k-acholi数据集通过精心设计的翻译流程构建而成。原始数据源自glaiveai/glaive-code-assistant-v2的编程对话集合，经过专业翻译团队将其转化为阿乔利语，确保语言表达的准确性与文化适应性。该过程涉及多轮质量校验，最终形成包含176,999条对话的大规模语料，为阿乔利语社区的编程教育奠定坚实基础。

特点

该数据集最显著的特点是全面覆盖编程知识体系的多轮对话结构。每条记录均包含人类提问与AI回复的交替序列，完整呈现编程问题解决的全过程。内容维度涵盖算法设计、数据结构应用、代码调试等核心编程概念，所有文本均采用纯阿乔利语表述。这种设计既保留了原始代码助手数据集的专业深度，又实现了对低资源语言的针对性适配，为跨语言代码生成研究提供了独特价值。

使用方法

针对自然语言处理研究需求，该数据集可直接通过Hugging Face生态系统加载使用。研究人员采用标准数据加载接口即可获取完整训练集，其中每个样本包含结构化的对话序列。典型应用场景包括阿乔利语代码助手模型的指令微调、多语言编程教育工具开发等。数据格式已优化为兼容主流机器学习框架的键值对结构，支持研究者快速开展低资源语言代码生成任务的实验探索。

背景与挑战

背景概述

在人工智能促进多语言技术发展的背景下，Code-170k-acholi数据集于2025年由Hugging Face平台发布，旨在解决低资源语言在编程教育领域的资源匮乏问题。该数据集基于glaiveai/glaive-code-assistant-v2的原始内容，通过系统化翻译构建了17.7万条阿乔利语编程对话，核心研究聚焦于打破语言壁垒，使阿乔利语使用者能够平等获取编程知识。这一创新推动了多语言代码生成与教育公平的交叉研究，为非洲语言在自然语言处理领域的应用开辟了新路径。

当前挑战

构建过程面临双重挑战：在领域问题层面，需克服低资源语言缺乏标准化技术术语的翻译障碍，确保编程概念的准确传递；同时需维持对话逻辑连贯性以适应代码生成任务的复杂性。在技术实施层面，大规模语料翻译需平衡文化适配性与技术严谨性，而多轮对话结构的保留要求对原数据集语义进行深度对齐。此外，低资源语言的语法特性对模型指令调优提出了数据质量与多样性的更高要求。

常用场景

经典使用场景

在低资源语言技术发展的背景下，Code-170k-acholi数据集最经典的使用场景是作为训练阿乔利语编程助手的核心语料。该数据集通过17万条高质量编程对话，涵盖了算法设计、数据结构实现、代码调试等多元主题，为构建能够理解并用阿乔利语生成代码的人工智能系统提供了坚实基础。其多轮对话结构特别适合模拟真实编程教学场景，使模型能够逐步引导用户解决复杂技术问题。

衍生相关工作

该数据集已催生多个重要研究方向，特别是在低资源语言代码生成领域。基于其构建的阿乔利语编程助手成为后续研究的基准系统，启发了针对其他非洲语言的类似数据集创建项目。在模型架构方面，它促进了跨语言指令调优技术的创新，推动了如多语言代码大模型、低资源语言机器翻译专项优化等经典工作的诞生，形成了一套完整的技术扩散生态。

数据集最近研究