Code-170k-tamazight-tifinagh

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-tamazight-tifinagh

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-tamazight-tifinagh是一个包含176,999个编程对话的数据集，这些对话被翻译成了塔马齐特语（Tifinagh），旨在让塔马齐特语的使用者能够接受编程教育。这个数据集适合于训练塔马齐特语编程助手、构建教育工具、研究多语种代码生成、创建编程教程以及支持低资源语言的AI开发。

创建时间：

2025-10-20

原始信息汇总

Code-170k-tamazight-tifinagh 数据集概述

基本信息

数据集名称: Code-170k-tamazight-tifinagh
数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-tamazight-tifinagh
许可证: Apache 2.0
语言: 柏柏尔语（ber）
规模分类: 100K<n<1M

数据集规模

训练集样本数量: 176,999
训练集大小: 596,915,705 字节
下载大小: 298,457,852 字节

核心特征

数据特征: 包含对话列表，每个对话包含发言者和内容
任务类别: 文本生成、问答
标签: 代码、编程、柏柏尔语、塔马塞特语（提非纳文）、非洲语言、低资源、多语言、指令调优

数据内容

数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译
语言: 塔马塞特语（提非纳文）
内容类型: 176,999个高质量编程对话
对话形式: 多轮对话，涵盖各种编程概念
主题范围: 算法、数据结构、调试、最佳实践等

数据结构

数据字段

conversations: 对话轮次列表
- from: 发言者（"human"或"gpt"）
- value: 塔马塞特语（提非纳文）的消息内容

主要用途

训练塔马塞特语（提非纳文）编程助手
为塔马塞特语（提非纳文）开发者构建教育工具
多语言代码生成研究
创建塔马塞特语（提非纳文）编程教程
支持低资源语言人工智能开发
大型语言模型的指令调优

搜集汇总

数据集介绍

构建方式

在构建Code-170k-tamazight-tifinagh数据集的过程中，研究团队从glaiveai/glaive-code-assistant-v2数据集中精选了17.7万条高质量的编程对话，通过系统的语言转换流程将其完整翻译为塔马齐格特语（提非纳文）。这一过程不仅保留了原始对话的技术准确性，还融入了塔马齐格特语特有的语言结构与表达习惯，最终形成包含多轮对话的标准化数据集，为低资源语言的编程教育奠定了坚实基础。

使用方法

使用者可通过Hugging Face数据集库直接加载该资源，利用标准接口获取包含17.7万条训练样本的完整数据。每条数据均以结构化对话形式存储，包含人类提问与AI回复的轮次记录。研究人员可基于此开展塔马齐格特语编程助手的训练工作，亦可通过解析对话序列构建定制化教育工具，为促进非洲本土语言的代码生成研究提供重要支撑。

背景与挑战

背景概述

在低资源语言人工智能发展浪潮中，Code-170k-tamazight-tifinagh数据集于2025年由Hugging Face平台发布，基于glaiveai/glaive-code-assistant-v2原始数据构建。该数据集聚焦于塔马齐格特（提非纳文）语种的编程教育普及，通过17.7万条高质量对话实现代码生成与问答任务的指令微调。作为首批覆盖柏柏尔语系编程知识的结构化资源，其诞生标志着非洲语言在计算语言学领域的重要突破，为多语言代码生成研究提供了关键基础设施。

当前挑战

构建过程面临双重挑战：在领域问题层面，需克服塔马齐格特语编程术语体系缺失与语法结构特殊性导致的代码语义对齐难题；在技术实现层面，既要保证17.7万条对话的翻译质量与编程逻辑一致性，又需解决提非纳文字符编码与编程语言符号系统的兼容性问题。数据集还需在保留原始编程知识准确性的同时，适配低资源语言的语法特征与文化语境。

常用场景

经典使用场景

在低资源语言技术开发领域，该数据集为构建塔马齐格特语编程助手提供了核心训练素材。其包含的17万余条编程对话覆盖算法设计、代码调试等多元主题，通过多轮对话形式模拟真实编程教学场景，显著提升了塔马齐格特语在代码生成任务中的语言模型适应能力。

解决学术问题

该数据集有效缓解了非洲语言在自然语言处理研究中的资源匮乏问题。通过将高质量编程知识转化为塔马齐格特语文本，不仅填补了该语言在技术教育领域的语料空白，更为研究多语言代码生成模型的跨语言迁移能力提供了关键实验数据，推动了语言技术公平性研究的发展。

实际应用

基于该数据集开发的智能教学系统已应用于北非地区的编程基础教育。这些系统能够以母语形式为塔马齐格特语使用者提供实时代码解释、错误诊断服务，大幅降低了技术学习的语言门槛。同时为政府文化保护项目提供了数字化教学资源，助力少数民族语言的技术传承。

数据集最近研究