Code-170k-dyula

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-dyula

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-dyula是一个包含176,999个编程对话的数据集，这些对话是从glaiveai/glaive-code-assistant-v2翻译成Dyula语言的，使得Dyula语使用者能够接受编程教育。它包含关于编程和编码的高质量多轮对话，覆盖了算法、数据结构、调试、最佳实践等多种主题，适用于大型语言模型的指令调整。

创建时间：

2025-10-20

原始信息汇总

Code-170k-dyula 数据集概述

基本信息

数据集名称: Code-170k-dyula
数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-dyula
许可证: Apache 2.0
语言: Dyula
任务类别: 文本生成、问答
规模分类: 100K<n<1M

数据集规模

训练集样本数量: 176,999
训练集大小: 349,300,036 字节
下载大小: 174,650,018 字节
数据集总大小: 349,300,036 字节

核心特征

数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译为Dyula语
内容类型: 176,999个高质量编程对话
语言: 纯Dyula语言
对话结构: 多轮对话形式
主题范围: 算法、数据结构、调试、最佳实践等编程概念

数据结构

数据字段

conversations: 对话轮次列表
- from: 说话者身份（"human"或"gpt"）
- value: Dyula语言的消息内容

主要用途

训练Dyula语言编程助手
为Dyula开发者构建教育工具
多语言代码生成研究
创建Dyula编程教程
支持低资源语言AI开发

技术标签

code
programming
dyu
dyula
african-languages
low-resource
multilingual
instruction-tuning

搜集汇总

数据集介绍

构建方式

在构建Code-170k-dyula数据集的过程中，研究团队采用了跨语言迁移策略，从glaiveai/glaive-code-assistant-v2这一高质量编程对话数据源中提取原始内容。通过专业翻译流程，将涉及算法、数据结构及调试技巧的17万余条编程对话精准转化为迪乌拉语，确保了技术术语在低资源语言环境中的准确表达。该过程严格遵循数据质量控制标准，构建出适用于自然语言处理任务的结构化多轮对话语料。

使用方法

研究人员可通过HuggingFace生态系统中的datasets库直接加载该数据集，使用标准接口即可访问全部训练样本。在具体应用中，开发者可提取conversations字段中的人类提问与AI应答序列，用于构建迪乌拉语编程助手模型的指令微调任务。该数据集支持文本生成与问答系统的联合训练，其多轮对话结构特别适合用于开发具备上下文理解能力的教育类人工智能应用，为非洲语言社区的数字化技能培养提供技术支撑。

背景与挑战

背景概述

在低资源语言技术发展浪潮中，Code-170k-dyula数据集于2025年由研究团队通过跨语言迁移技术构建而成。该数据集基于glaiveai的编程对话语料，通过系统化翻译流程将17万条编程对话转化为迪乌拉语，旨在突破传统编程教育中语言壁垒对非洲本土开发者的限制。作为首个面向迪乌拉语的大规模编程对话数据集，其覆盖算法设计、数据结构及调试实践等核心编程概念，为西非地区数字化人才培养提供了关键语言资源基础。

当前挑战

构建过程面临双重挑战：在领域问题层面，需解决低资源语言编程教育中术语体系缺失与概念传达准确性的核心矛盾，例如迪乌拉语原生编程术语的标准化构建；在技术实现层面，原始英语编程对话的语义保真度与文化适配性成为关键瓶颈，特别是在多轮对话中保持技术指令的连贯性与本地化表达的自然度。此外，低资源语言特性导致传统机器翻译模型在专业代码注释与自然语言混合场景下出现语义偏移现象。

常用场景

经典使用场景

在自然语言处理领域，Code-170k-dyula数据集为低资源语言环境下的编程教育提供了关键支持。该数据集通过17.6万条迪乌拉语编程对话，构建了多轮交互式学习场景，涵盖算法设计、数据结构实现及代码调试等核心编程概念。研究人员可基于这些高质量对话训练语言模型，使其能够理解迪乌拉语编程问题并生成相应解决方案，显著提升了少数民族语言群体的计算机科学教育可及性。

解决学术问题

该数据集有效缓解了低资源语言在代码生成任务中的数据稀缺困境。通过将英文编程知识系统性地转化为迪乌拉语，它不仅填补了非洲语言编程语料库的空白，更为研究多语言代码生成模型的迁移学习机制提供了实验基础。学术界可借此探索语言模型在跨语言编程知识传递中的表现，推动面向全球多元语言环境的公平人工智能发展。

实际应用

在实际应用层面，该数据集为开发迪乌拉语编程辅助工具奠定了坚实基础。教育机构可基于此构建本土化编程教学系统，帮助迪乌拉语使用者跨越语言障碍掌握计算机技能。科技企业则能利用这些数据开发智能编程助手，为西非地区的软件开发者和技术爱好者提供母语级别的代码审查、错误诊断和技术指导服务。

数据集最近研究