Code-170k-nuer

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-nuer

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-nuer 是一个包含 176,999 个编程对话的数据集，这些对话被翻译成了努尔语，旨在让努尔语使用者能够接触并学习编程。数据集中的对话涵盖了各种编程概念，适用于训练努尔语编程助手、构建教育工具、研究多语言代码生成等多种用途。数据集的结构为一个包含对话轮次的列表，每个轮次包括 'from'（发言者）和 'value'（消息内容）。

创建时间：

2025-10-20

原始信息汇总

Code-170k-nuer 数据集概述

基本信息

数据集名称: Code-170k-nuer
发布年份: 2025
发布平台: Hugging Face
许可证: Apache 2.0
语言: 努尔语（Nuer）

数据集规模

训练集样本数量: 176,999
训练集大小: 383,754,208字节
下载大小: 191,877,104字节
规模分类: 100K<n<1M

数据特征

数据结构

主要字段: conversations
对话轮次结构:
- from: 说话者标识（"human"或"gpt"）
- value: 努尔语消息内容

数据格式示例

python { "conversations": [ { "from": "human", "value": "[努尔语问题]" }, { "from": "gpt", "value": "[努尔语回答]" } ] }

数据集特点

数据来源: 基于glaiveai/glaive-code-assistant-v2翻译
语言特性: 纯努尔语编程对话
对话类型: 多轮对话
内容主题: 编程概念、算法、数据结构、调试、最佳实践等

任务类别

文本生成
问答系统

应用场景

努尔语编程助手训练
努尔开发者教育工具开发
多语言代码生成研究
努尔语编程教程创建
低资源语言AI开发支持

技术标签

code
programming
nus
nuer
african-languages
low-resource
multilingual
instruction-tuning

引用格式

bibtex @dataset{code170k_nuer, title={Code-170k-nuer: Programming Conversations in Nuer}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-nuer} }

搜集汇总

数据集介绍

构建方式

在促进低资源语言技术发展的背景下，Code-170k-nuer数据集通过精心设计的数据转换流程构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话内容，经过专业翻译流程转化为努尔语，确保了语言表达的准确性和文化适应性。构建过程中保留了原始数据中的多轮对话结构，涵盖算法、数据结构及调试等编程主题，最终形成包含176,999条高质量对话样本的训练集，为努尔语编程教育奠定了坚实的数据基础。

使用方法

在自然语言处理研究领域，该数据集可通过Hugging Face生态系统的标准接口进行加载与应用。研究人员使用datasets库的load_dataset函数即可直接获取训练集，其中每个样本均以结构化对话格式呈现。实际应用中，开发者可遍历conversations字段解析对话轮次，分别处理人类提问与AI回复的文本内容。这种标准化接口设计便于将数据集集成到各类机器学习流水线中，特别适用于多语言代码生成模型的训练与评估工作。

背景与挑战

背景概述

随着人工智能技术在编程教育领域的深入应用，多语言代码助手成为促进全球技术包容性的关键工具。Code-170k-nuer数据集由研究团队于2025年构建，其核心目标是通过将17.6万条编程对话翻译为努尔语，解决非洲低资源语言群体在计算机科学教育中的语言壁垒问题。该数据集源自glaiveai/glaive-code-assistant-v2的原始语料，通过系统化转译覆盖算法设计、数据结构及调试实践等编程核心概念，为努尔语社区的开发者提供了本土化学习资源，显著推动了低资源语言在代码生成与教育技术领域的研究进程。

当前挑战

在编程教育领域，低资源语言面临技术术语标准化与语义准确性双重挑战，努尔语缺乏成熟的编程词汇体系导致模型需解决概念对齐与语境适配问题。数据集构建过程中，专业术语的跨文化转译需要平衡语言学规范与计算机科学精确性，而多轮对话结构的完整性维护则依赖高质量的并行语料对齐。此外，低资源语言的语法特性可能引发代码生成时的逻辑连贯性风险，需通过迭代优化确保指令调优的有效性。

常用场景

经典使用场景

在低资源语言技术发展的背景下，Code-170k-nuer数据集最经典的使用场景是作为指令调优的训练语料，专门用于开发能够理解努尔语编程问题的智能助手。这些对话覆盖算法设计、数据结构实现及代码调试等核心编程概念，通过多轮交互形式为模型提供丰富的上下文学习样本，显著提升了努尔语编程教育的可及性。

解决学术问题

该数据集有效解决了低资源语言在代码生成领域的数据稀缺性问题，为跨语言编程教育研究提供了关键支撑。通过将17万条编程对话转化为努尔语，它不仅填补了非洲本土语言与计算机科学间的知识鸿沟，更推动了多语言大模型在技术教育场景中的公平性研究，为语言学与人工智能的交叉学科探索开辟了新路径。

实际应用

在实际应用层面，基于该数据集训练的努尔语编程助手已逐步融入数字化教育体系，帮助母语者通过本土语言掌握编程技能。教育机构可借助此类工具开发双语编程课程，技术企业则能构建面向努尔语开发者的智能支持系统，从而在数字时代保障语言多样性的可持续发展。

数据集最近研究