Code-170k-fulani

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-fulani

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-富拉尼语编程对话数据集是一个包含176,999个高质量编程对话的数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成富拉尼语，使得编程教育对富拉尼语使用者变得可行。它支持多轮对话，涵盖各种编程概念，话题多样，适用于大型语言模型的指令微调。

The Code-170k-Fula Programming Dialogue Dataset consists of 176,999 high-quality programming dialogues. Originally sourced from glaiveai/glaive-code-assistant-v2, these dialogues have been translated into Fula, enabling programming education to be accessible for Fula-speaking users. The dataset supports multi-turn conversations, covers a wide range of programming concepts with diverse topics, and is suitable for instruction tuning of large language models.

创建时间：

2025-10-20

原始信息汇总

Code-170k-fulani 数据集概述

基本信息

数据集名称: Code-170k-fulani
数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-fulani
许可证: Apache 2.0
语言: 富拉尼语 (ff)

数据集规模

训练集样本数量: 176,999
训练集大小: 331,468,488 字节
下载大小: 165,734,244 字节
规模分类: 100K<n<1M

数据集特征

数据格式

主要特征: conversations
结构: 对话列表，每个对话包含：
- from: 说话者（"human"或"gpt"）
- value: 富拉尼语的消息内容

任务类别

文本生成
问答系统

数据集特点

内容类型: 176,999个高质量编程对话
语言特征: 纯富拉尼语
对话形式: 多轮对话
主题范围: 算法、数据结构、调试、最佳实践等编程概念
适用场景: 大语言模型的指令调优

数据来源

原始数据集: glaiveai/glaive-code-assistant-v2
处理方式: 翻译为富拉尼语

使用场景

训练富拉尼语编程助手
为富拉尼开发者构建教育工具
多语言代码生成研究
创建富拉尼语编程教程
支持低资源语言人工智能开发

标签分类

代码
编程
富拉尼语
非洲语言
低资源语言
多语言
指令调优

搜集汇总

数据集介绍

构建方式

在促进非洲本土语言技术发展的背景下，Code-170k-fulani数据集通过精心设计的转换流程构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话，经过专业翻译团队将其内容完整转化为富拉尼语。构建过程中严格遵循多轮对话结构，确保每个对话回合均包含人类提问与模型回答的对应关系，最终形成包含176,999条高质量对话样本的标准化数据集。

使用方法

在自然语言处理研究领域，该数据集可通过Hugging Face生态系统直接加载使用。研究人员使用datasets库的load_dataset函数即可获取完整数据，通过指定训练分割访问所有对话样本。每个样本以结构化JSON格式存储，包含按顺序排列的对话轮次，便于开发者直接应用于富拉尼语编程助手训练、跨语言代码生成研究等具体场景，有效支持低资源语言的技术赋能计划。

背景与挑战

背景概述

在人工智能与自然语言处理领域，低资源语言的技术支持一直是亟待突破的研究方向。Code-170k-fulani数据集于2025年由研究团队基于glaiveai/glaive-code-assistant-v2数据集构建而成，专门针对富拉尼语编程教育场景。该数据集包含176,999组高质量编程对话，涵盖算法设计、数据结构、调试技巧等核心编程概念，旨在通过多轮对话形式为富拉尼语使用者提供编程知识获取渠道，推动低资源语言在代码生成与教育辅助领域的发展。

当前挑战

该数据集致力于解决富拉尼语编程教育资源的稀缺性问题，面临语言技术适配与教育资源构建的双重挑战。在领域问题层面，需克服低资源语言代码生成中术语体系缺失与语法结构差异带来的语义理解障碍；在构建过程中，挑战集中于原始编程对话的精准翻译与本土化适配，确保技术概念在富拉尼语语境中的准确表达，同时维持多轮编程对话的逻辑连贯性与教学有效性。

常用场景

经典使用场景

在编程教育领域，Code-170k-fulani数据集通过17.7万条富拉尼语编程对话，为构建富拉尼语代码助手提供了核心训练资源。这些多轮对话涵盖算法设计、数据结构实现及调试技巧等主题，显著降低了富拉尼语学习者接触编程知识的门槛，成为低资源语言技术开发中的典型范例。

解决学术问题

该数据集有效缓解了低资源语言在代码生成研究中的数据稀缺困境，为多语言编程教育公平性提供了实证基础。通过将主流编程知识体系转化为富拉尼语对话，它不仅填补了非洲语言在计算机科学教育领域的空白，更为研究语言多样性对代码理解的影响提供了关键语料支撑。

实际应用

在实际应用层面，本数据集可直接用于开发富拉尼语编程教学工具和智能辅导系统。教育机构能基于这些对话构建本地化课程，技术团队则可训练能理解富拉尼语编程需求的AI助手，切实推动西非地区数字化人才培养进程，缩小全球编程教育鸿沟。

数据集最近研究