Code-170k-dombe

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-dombe

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-dombe是一个包含176,999个编程对话的数据集，这些对话被翻译成Dombe语言，使得编码教育对Dombe语使用者更加普及。它包含关于编程和编码的高质量多轮对话，覆盖了算法、数据结构、调试、最佳实践等多种主题，并且适用于大型语言模型的指令微调。

创建时间：

2025-10-20

原始信息汇总

Code-170k-dombe 数据集概述

基本信息

数据集名称：Code-170k-dombe
数据集地址：https://huggingface.co/datasets/michsethowusu/Code-170k-dombe
许可证：Apache 2.0
语言：多贝语(dov)

数据集规模

训练集样本数量：176,999
训练集大小：116,431,164字节
下载大小：58,215,582字节
规模分类：100K<n<1M

数据集描述

Code-170k-dombe是一个包含176,999个编程对话的开创性数据集，原始数据来源于glaiveai/glaive-code-assistant-v2，并翻译成多贝语，使多贝语使用者能够接触编程教育。

主要特征

包含176,999个高质量的编程和编码对话
纯多贝语内容
多轮对话涵盖各种编程概念
多样化主题：算法、数据结构、调试、最佳实践等
适用于大型语言模型的指令调优

数据结构

数据字段

conversations：对话轮次列表，每个轮次包含：
- from：发言者（"human"或"gpt"）
- value：多贝语的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[多贝语问题]" }, { "from": "gpt", "value": "[多贝语回答]" } ] }

任务类别

文本生成
问答

使用场景

训练多贝语编码助手
为多贝语开发者构建教育工具
研究多语言代码生成
创建多贝语编程教程
支持低资源语言人工智能开发

搜集汇总

数据集介绍

构建方式

在编程教育领域，Code-170k-dombe数据集通过精心设计的转化流程构建而成。原始数据源自glaiveai/glaive-code-assistant-v2的编程对话资源，经过系统性的语言转换处理，将17万条高质量编程对话完整翻译为多贝语。该构建过程特别注重保持编程术语的准确性和教学对话的连贯性，最终形成包含176,999个训练样本的标准化数据集，为低资源语言社区的编程教育奠定坚实基础。

特点

该数据集最显著的特征在于其语言资源的稀缺性与专业性并存。作为专门面向多贝语使用者的编程教育资料，它不仅覆盖算法设计、数据结构、调试技巧等核心编程概念，还采用多轮对话形式呈现专业知识。每个对话单元都严格遵循人机交互模式，通过human-gpt的角色分配构建完整的教学场景。这种设计既保留了原始数据的技术深度，又实现了编程知识在低资源语言环境中的本土化表达。

使用方法

对于研究人员和开发者而言，该数据集可直接通过Hugging Face生态系统进行调用。使用load_dataset函数加载数据集后，用户可获得包含conversations字段的训练集，其中每个对话单元由from和value两个关键属性构成。这种标准化结构特别适用于指令调优任务，能够有效支持多贝语编程助手的开发，同时为跨语言代码生成研究提供重要的实验数据支撑。

背景与挑战

背景概述

随着人工智能技术在编程教育领域的深入应用，多语言代码助手的发展成为推动计算思维普及的关键环节。Code-170k-dombe数据集于2025年由研究团队基于glaive-code-assistant-v2转化构建，专注于将17.7万组编程对话翻译为非洲Dombe语言。该数据集通过多轮对话覆盖算法设计、调试实践等核心编程概念，旨在解决低资源语言群体在技术教育中的语言壁垒，为Dombe语者构建本土化编程教学工具提供了重要基础。

当前挑战

在编程教育领域，低资源语言面临技术术语体系缺失与语料稀疏的双重挑战。数据集构建过程中需克服Dombe语言编程术语标准化不足的困难，同时确保从英文到Dombe的语义精确转换。多轮对话结构的完整性维护要求翻译过程保留技术逻辑连贯性，而低资源语言的语法特性更增加了对话自然度保持的复杂度，这些因素共同构成了高质量跨语言编程知识迁移的技术瓶颈。

常用场景

经典使用场景

在编程教育领域，Code-170k-dombe数据集通过17万条高质量的多轮对话，为Dombe语种的学习者构建了沉浸式编程教学环境。这些对话涵盖算法设计、数据结构应用及代码调试等核心主题，能够有效支撑编程助手的指令调优过程，促进低资源语言环境下技术知识的本土化传播。

解决学术问题

该数据集显著缓解了低资源语言在代码生成研究中的数据稀缺困境，为跨语言编程教育提供了实证基础。通过将英文编程知识系统转化为Dombe语料，它不仅推动了多语言大模型在技术领域的适应性研究，更为探索语言壁垒对编程认知的影响提供了关键数据支撑。

衍生相关工作

基于该数据集衍生的经典研究包括Dombe语种代码生成模型的架构优化，以及低资源语言指令调优范式的创新。这些工作进一步催生了面向非洲语言的编程教育平台，并启发了针对其他小众语种的代码语料构建计划，形成跨语言技术传播的良性生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集