Code-170k-tigrinya

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-tigrinya

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-tigrinya是一个包含176,999个编程对话的开创性数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成提格雷尼亚语，使提格雷尼亚语使用者能够接触编程教育。

创建时间：

2025-10-20

原始信息汇总

Code-170k-tigrinya 数据集概述

基本信息

数据集名称: Code-170k-tigrinya
语言: 提格里尼亚语 (ti)
许可证: Apache 2.0
数据规模: 100K<n<1M
任务类别: 文本生成、问答

数据集内容

数据量: 176,999 个编程对话
数据来源: 基于 glaiveai/glaive-code-assistant-v2 数据集翻译为提格里尼亚语
数据格式: 多轮对话格式
文件大小:
- 下载大小: 236,922,520 字节
- 数据集大小: 473,845,041 字节

数据结构

数据特征

conversations: 对话列表，包含：
- from: 说话者身份 ("human" 或 "gpt")
- value: 提格里尼亚语的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[提格里尼亚语的问题]" }, { "from": "gpt", "value": "[提格里尼亚语的回答]" } ] }

主要特点

高质量的编程和编码对话
纯提格里尼亚语内容
多轮对话涵盖各种编程概念
多样化主题：算法、数据结构、调试、最佳实践等
适用于大语言模型的指令调优

应用场景

训练提格里尼亚语编码助手
为提格里尼亚开发者构建教育工具
多语言代码生成研究
创建提格里尼亚语编程教程
支持低资源语言AI开发

引用信息

bibtex @dataset{code170k_tigrinya, title={Code-170k-tigrinya: Programming Conversations in Tigrinya}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-tigrinya} }

搜集汇总

数据集介绍

构建方式

在编程教育资源稀缺的背景下，Code-170k-tigrinya数据集通过系统化翻译流程构建而成。该数据集以glaiveai/glaive-code-assistant-v2的17万条编程对话为原始素材，采用专业翻译技术将其完整转化为提格里尼亚语。构建过程注重保持编程术语的准确性与对话结构的完整性，最终形成包含176,999条高质量双语对照样本的训练集，为低资源语言社区搭建起技术知识传播的桥梁。

特点

该数据集最显著的特征在于其专为提格里尼亚语使用者设计的编程教育内容。所有对话均采用纯提格里尼亚语呈现，涵盖算法设计、数据结构、调试技巧等多元编程主题。数据集采用多轮对话结构，每段对话均标注发言者身份与对应内容，既保留了原始编程知识的专业深度，又兼顾了非洲语言用户的认知习惯，为开发本土化编程教学工具提供了丰富的语言素材。

使用方法

研究人员可通过Hugging Face标准接口直接加载该数据集进行模型训练。使用load_dataset函数调用数据集后，开发者可提取训练集中的对话序列，将其应用于提格里尼亚语编程助手的指令微调任务。该数据结构清晰支持端到端训练流程，既能用于构建代码生成模型，也可作为跨语言编程教育系统的核心语料，有效推动低资源语言技术在人工智能领域的发展。

背景与挑战

背景概述

随着自然语言处理技术在编程教育领域的深入应用，多语言代码助手成为促进全球技术包容性的关键工具。Code-170k-tigrinya数据集由研究团队于2025年基于glaiveai/glaive-code-assistant-v2构建，通过将17.7万条编程对话翻译成提格里尼亚语，致力于解决非洲低资源语言群体在计算机科学教育中的语言障碍。该数据集覆盖算法设计、数据结构及调试实践等核心编程概念，为提格里尼亚语开发者提供了本土化的学习资源，显著推动了低资源语言在人工智能辅助编程领域的研究进程。

当前挑战

构建过程面临双重挑战：在领域问题层面，需克服低资源语言编程术语体系缺失导致的语义对齐困难，确保技术概念在提格里尼亚语中的准确表达；在数据集构建层面，既要维持原始编程对话的逻辑严谨性，又需处理提格里尼亚语复杂形态变化对机器翻译质量的干扰。此外，多轮对话结构的文化适应性调整与代码符号的跨语言保留，进一步增加了数据集质量控制的复杂度。

常用场景

经典使用场景

在低资源语言技术发展的背景下，Code-170k-tigrinya数据集最经典的使用场景在于为提格里尼亚语编程教育提供核心训练素材。该数据集通过17万条高质量编程对话，系统覆盖算法设计、数据结构应用及代码调试等关键领域，成为构建本土化智能编程助手的基石。其多轮对话结构能够模拟真实教学互动过程，显著提升语言模型对编程概念的解析能力。

解决学术问题

该数据集有效缓解了低资源语言在计算语言学领域的数据稀缺困境。通过将主流编程知识转化为提格里尼亚语语料，它为解决跨语言代码生成、多语言指令微调等前沿课题提供了实验基础。其存在不仅填补了非洲语言编程教育的学术空白，更为研究语言模型在资源受限环境下的知识迁移机制创造了宝贵条件。

衍生相关工作

该数据集已催生多项具有影响力的衍生研究。以Glaive-code-assistant架构为蓝本，研究者开发出专攻提格里尼亚语的代码生成模型，其微调策略被后续多个低资源语言项目借鉴。同时，基于该数据集构建的编程教育平台正逐步扩展至其他非洲语言，形成跨语言技术传播的示范效应，为全球语言多样性保护与技术创新融合提供了实践范本。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集