Code-170k-fon

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-fon

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-fon是一个包含176,999个编程对话的数据集，这些对话是从glaiveai/glaive-code-assistant-v2数据集中翻译成Fon语言的，目的是让Fon语使用者能够接触并学习编程。该数据集包含多轮对话，覆盖了各种编程概念，话题包括算法、数据结构、调试、最佳实践等。数据集适用于指令微调大型语言模型，并可用于训练Fon语言的编程助手、构建教育工具、研究多语言代码生成、创建Fon语言的编程教程以及支持低资源语言的AI开发。

创建时间：

2025-10-20

原始信息汇总

Code-170k-fon 数据集概述

基本信息

数据集名称: Code-170k-fon
创建者: michsethowusu
许可证: Apache 2.0
语言: Fon
任务类别: 文本生成、问答
规模分类: 100K<n<1M

数据集规模

训练集样本数量: 176,999
训练集大小: 385,301,944 字节
下载大小: 192,650,972 字节

数据集描述

Code-170k-fon 是一个包含 176,999 个编程对话的开创性数据集，原始数据来源于 glaiveai/glaive-code-assistant-v2，并翻译成 Fon 语言，使 Fon 使用者能够接触编程教育。

主要特点

包含 176,999 个高质量的编程和编码对话
纯 Fon 语言编写
多轮对话涵盖各种编程概念
多样化主题：算法、数据结构、调试、最佳实践等
适用于大型语言模型的指令调优

数据结构

数据字段

conversations: 对话轮次列表，每个轮次包含：
- from: 说话者（"human" 或 "gpt"）
- value: Fon 语言的消息内容

使用案例

训练 Fon 语言编码助手
为 Fon 开发者构建教育工具
研究多语言代码生成
创建 Fon 编程教程
支持低资源语言 AI 开发

引用格式

bibtex @dataset{code170k_fon, title={Code-170k-fon: Programming Conversations in Fon}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-fon} }

搜集汇总

数据集介绍

构建方式

在促进非洲语言技术发展的背景下，Code-170k-fon数据集基于glaiveai/glaive-code-assistant-v2的原始编程对话内容，通过专业翻译流程将其转化为丰语。这一过程涉及对17万条高质量编程对话的精准本地化处理，涵盖算法、数据结构及调试等多个主题，旨在构建适用于低资源语言环境的指令调优资料。

特点

该数据集以其纯丰语编程对话的独特定位脱颖而出，包含17万条多轮交互记录，全面覆盖编程概念与实践场景。其对话结构采用标准化格式，每条记录均标注发言者角色与丰语内容，为多语言代码生成研究提供了丰富素材，尤其支持低资源语言在人工智能教育工具开发中的应用。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用其训练集分支进行丰语编程助手的指令调优。典型应用场景包括构建教育型对话系统、开展多语言代码生成实验，以及开发面向丰语开发者的编程教学工具，所有对话记录均以标准化JSON格式呈现，便于直接集成至机器学习流程。

背景与挑战

背景概述

随着人工智能在自然语言处理领域的深入发展，多语言编程教育资源的稀缺性日益凸显。Code-170k-fon数据集应运而生，由研究团队基于glaiveai/glaive-code-assistant-v2数据集进行创新性转化，通过将17.7万条编程对话翻译为丰语（Fon），致力于弥合低资源语言群体在计算机科学教育中的数字鸿沟。该数据集聚焦于编程概念的多轮对话建模，涵盖算法设计、数据结构及调试实践等核心内容，为丰语社区的数字化人才培养提供了关键语言资源，同时推动了多语言代码生成技术的前沿探索。

当前挑战

在编程教育领域，低资源语言的语义表达精准度与技术术语一致性构成核心挑战。Code-170k-fon需确保编程概念的丰语翻译既保留技术准确性又符合本土语言习惯，例如递归、面向对象等专业术语的跨文化适配。数据集构建过程中，面临源数据文化适配性重构的复杂性，需解决丰语语法结构与编程逻辑的映射问题，同时克服低资源语言缺乏并行语料导致的翻译质量验证困难，这些因素共同增加了高质量双语编程语料库的建设难度。

常用场景

经典使用场景

在编程教育领域，Code-170k-fon数据集通过17万条高质量对话为低资源语言社区构建了桥梁。其多轮对话结构覆盖算法设计、数据结构实现及代码调试等核心编程概念，成为训练Fon语言编程助手的理想素材。该数据集支持指令微调技术，使大型语言模型能够以Fon语生成精准的代码解决方案，显著提升了非洲语言群体在计算机科学教育中的参与度。

解决学术问题

该数据集有效缓解了低资源语言在自然语言处理研究中的资源匮乏困境。通过将编程知识体系系统性地转化为Fon语，它不仅为多语言代码生成研究提供了实证基础，更突破了传统编程教育依赖主流语言的局限。学术界可借此探索跨语言知识迁移机制，推动数字时代语言公平性的理论框架构建，为全球语言多样性保护提供技术支撑。

衍生相关工作

受该数据集启发，研究社区已衍生出多项创新工作。例如基于迁移学习的Fon语代码补全模型、支持多语言切换的编程教育框架，以及面向低资源语言的指令微调技术优化。这些成果不仅扩展了原始数据集的应用边界，更形成了从数据构建到模型部署的完整技术链条，为后续非洲语言AI研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集