Code-170k-tswana

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-tswana

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-tswana是一个包含176,999个编程对话的数据集，这些对话最初来源于glaiveai/glaive-code-assistant-v2，并翻译成茨瓦纳语，使编程教育对茨瓦纳语使用者更加容易获取。

Code-170k-tswana is a dataset containing 176,999 programming conversations. These conversations were originally sourced from glaiveai/glaive-code-assistant-v2 and translated into Tswana, making programming education more accessible for Tswana speakers.

创建时间：

2025-10-20

原始信息汇总

Code-170k-tswana数据集概述

基本信息

数据集名称: Code-170k-tswana
数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-tswana
许可证: Apache 2.0
语言: 茨瓦纳语 (tn)
任务类别: 文本生成、问答
规模分类: 100K<n<1M

数据集规模

训练集样本数量: 176,999
训练集大小: 358,584,310字节
下载大小: 179,292,155字节

数据集特征

数据字段

conversations: 对话列表，每个对话包含：
- from: 说话者（"human"或"gpt"）
- value: 茨瓦纳语的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[茨瓦纳语的问题]" }, { "from": "gpt", "value": "[茨瓦纳语的回答]" } ] }

数据集特点

高质量编程对话: 包含176,999个关于编程和编码的高质量对话
纯茨瓦纳语: 使编程教育民主化
多轮对话: 涵盖各种编程概念
多样化主题: 算法、数据结构、调试、最佳实践等
适用于指令调优: 适用于大型语言模型的指令调优

使用场景

训练茨瓦纳语编码助手
为茨瓦纳开发者构建教育工具
研究多语言代码生成
创建茨瓦纳语编程教程
支持低资源语言AI开发

加载方式

python from datasets import load_dataset

dataset = load_dataset("michsethowusu/Code-170k-tswana") train_data = dataset[train]

引用格式

bibtex @dataset{code170k_tswana, title={Code-170k-tswana: Programming Conversations in Tswana}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-tswana} }

搜集汇总

数据集介绍

构建方式

在促进编程教育资源多元化的背景下，Code-170k-tswana数据集通过精心设计的多步骤流程构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话，经过专业翻译流程转化为茨瓦纳语，确保了语言表达的准确性和自然度。构建过程中保留了多轮对话结构，涵盖算法、数据结构及调试等编程核心主题，最终形成包含176,999条高质量对话的标准化语料库，为低资源语言社区的编程教育奠定了坚实基础。

特点

作为面向非洲语言社区的编程教育数据集，其显著特征体现在语言与内容的双重创新。全部对话内容均采用纯茨瓦纳语呈现，开创性地将编程知识体系融入本土语言环境。数据集包含丰富多样的对话主题，从基础语法到复杂算法实现形成完整知识谱系，每条记录均保持人类与模型间的多轮交互结构。这种设计既保留了编程教学的过程性特征，又为开发茨瓦纳语编程助手提供了真实场景下的训练素材。

使用方法

在技术应用层面，该数据集通过标准化的接口实现便捷调用。研究者可使用Hugging Face数据集库直接加载完整语料，通过指定训练分割获取全部对话实例。每个对话样本包含交替排列的人类提问与模型回复，用户可依序提取对话轮次构建训练流水线。该结构特别适合指令微调任务，能够有效提升语言模型在茨瓦纳语编程领域的理解与生成能力，为开发教育辅助工具提供核心数据支撑。

背景与挑战

背景概述

随着人工智能在自然语言处理领域的深入发展，多语言编程教育资源的稀缺性逐渐成为制约技术普及的关键因素。Code-170k-tswana数据集应运而生，由研究团队基于glaiveai/glaive-code-assistant-v2数据集进行创新性扩展，通过将17.7万条编程对话翻译为茨瓦纳语，致力于为非洲语言群体提供高质量的编程教育资源。该数据集聚焦于代码生成与问答任务，覆盖算法设计、数据结构及调试实践等核心编程概念，显著提升了低资源语言在技术教育领域的可见度与可及性。

当前挑战

构建多语言编程数据集面临双重挑战：在领域问题层面，需克服低资源语言技术术语体系不完善导致的语义准确性难题，确保编程概念在茨瓦纳语中的专业表达与逻辑一致性；在数据构建过程中，既要维持原始代码对话的技术严谨性，又需解决翻译过程中文化语境适配与语法结构重构的复杂性，同时保证大规模语料在多轮对话场景下的连贯性与教育实用性。

常用场景

经典使用场景

在低资源语言技术发展的背景下，Code-170k-tswana数据集最经典的使用场景是作为训练茨瓦纳语编程助手的核心语料。该数据集通过17万条高质量编程对话，覆盖算法设计、数据结构实现、代码调试等多元主题，为构建具备多轮对话能力的教育型人工智能系统提供了坚实基础。其独特的双语转换特性使得模型能够理解编程概念的本土化表达，显著提升了技术知识在非洲语言社群中的传播效率。

解决学术问题

该数据集有效解决了低资源语言在代码生成领域的数据稀缺性问题，为跨语言程序语义理解研究开辟了新路径。通过将英文编程知识系统性地转化为茨瓦纳语，它不仅填补了非洲语言技术生态的空白，更推动了多语言指令微调技术的创新。这一资源使得研究者能够深入探索语言结构差异对代码逻辑传递的影响，为构建真正包容性的数字教育体系提供了理论支撑。

衍生相关工作

受该数据集启发，学术界已涌现出多项经典衍生研究。其中最具代表性的是基于多任务学习的低资源语言代码生成框架，通过联合优化翻译质量与程序逻辑保持，显著提升了小语种编程助手的实用性。另有研究探索了对话结构在代码教学中的迁移机制，开发出适应非洲语言特性的课程生成算法。这些工作共同构成了技术本土化与全球知识共享的创新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集