Code-170k-seychellois-creole

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/Code-170k-seychellois-creole

下载链接

链接失效反馈

官方服务：

资源简介：

Code-170k-seychellois-creole是一个包含176,999个编程对话的数据集，这些对话被翻译成塞舌尔克里奥尔语，旨在让塞舌尔克里奥尔语的使用者能够接受编程教育。数据集包含多轮对话，覆盖了算法、数据结构、调试、最佳实践等多种编程话题，并且适用于大型语言模型的指令调整。

创建时间：

2025-10-20

原始信息汇总

Code-170k-seychellois-creole 数据集概述

数据集基本信息

数据集名称: Code-170k-seychellois-creole
语言: 塞舌尔克里奥尔语 (crs)
许可证: Apache 2.0
数据规模: 100K<n<1M
任务类别: 文本生成、问答

数据集内容

数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译而成
数据量: 包含176,999个编程对话
数据格式: 多轮对话形式
文件大小:
- 下载大小: 159,481,483字节
- 数据集大小: 318,962,966字节

数据结构

数据字段

conversations: 对话列表，包含：
- from: 说话者身份（"human"或"gpt"）
- value: 塞舌尔克里奥尔语的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[塞舌尔克里奥尔语的问题]" }, { "from": "gpt", "value": "[塞舌尔克里奥尔语的回答]" } ] }

主要特点

包含176,999个高质量的编程对话
纯塞舌尔克里奥尔语内容
涵盖多种编程概念的多轮对话
主题多样：算法、数据结构、调试、最佳实践等
适用于大语言模型的指令调优

应用场景

训练塞舌尔克里奥尔语编程助手
为塞舌尔克里奥尔语开发者构建教育工具
多语言代码生成研究
创建塞舌尔克里奥尔语编程教程
支持低资源语言AI开发

引用格式

bibtex @dataset{code170k_seychellois_creole, title={Code-170k-seychellois-creole: Programming Conversations in Seychellois Creole}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/michsethowusu/Code-170k-seychellois-creole} }

搜集汇总

数据集介绍

构建方式

在低资源语言技术蓬勃发展的背景下，Code-170k-seychellois-creole数据集通过精心设计的翻译流程构建而成。该数据集源自glaiveai/glaive-code-assistant-v2的原始编程对话，经过专业翻译转化为塞舌尔克里奥尔语。构建过程严格遵循数据质量控制标准，确保17.7万条对话在语言转换过程中保持编程知识的准确性和语境完整性，为塞舌尔克里奥尔语社区建立起高质量的编程教育资源。

特点

作为面向低资源语言的技术突破，该数据集展现出独特的语言学价值和技术特征。全部对话内容均采用纯正的塞舌尔克里奥尔语表述，涵盖算法设计、数据结构、调试技巧等多元编程主题。其多轮对话结构完整保留了原始编程问题的逻辑脉络，每条记录均包含明确的话轮角色标识和对应的自然语言内容，为语言模型训练提供了丰富的语义理解素材。

使用方法

在跨语言编程教育应用场景中，该数据集可通过标准接口便捷加载。使用者借助Hugging Face数据集库的load_dataset函数即可调用完整数据，继而通过遍历conversations字段访问多轮对话内容。这种标准化访问方式特别适合用于塞舌尔克里奥尔语编程助手的指令调优，也为多语言代码生成研究提供了可直接利用的语料基础。

背景与挑战

背景概述

在低资源语言技术发展的浪潮中，塞舌尔克里奥尔语作为非洲地区的重要语言长期面临数字化资源匮乏的困境。Code-170k-seychellois-creole数据集应运而生，由研究团队基于glaiveai/glaive-code-assistant-v2原始数据构建，通过系统化翻译流程将17.7万组编程对话转化为克里奥尔语版本。该数据集聚焦于编程教育普惠化目标，致力于解决小语种群体在计算机科学教育领域面临的资源壁垒，为构建多语言代码生成模型提供了关键语料支撑。

当前挑战

该数据集核心挑战体现在双重维度：在领域问题层面，需克服低资源语言代码生成中术语体系缺失与语法结构错位难题，确保编程逻辑与克里奥尔语表达的无损转换；在构建过程中，面临专业术语标准化、对话语境一致性维护及文化适配性校准等工程挑战，特别是在保持多轮对话技术准确性的同时，还需处理语言变体与方言差异对机器学习模型造成的干扰。

常用场景

经典使用场景

在低资源语言技术领域，该数据集为构建塞舌尔克里奥尔语编程助手提供了核心训练资源。其17万条编程对话覆盖算法实现、调试技巧等主题，通过多轮对话形式模拟真实编程教学场景，使模型能够理解并生成符合该语言习惯的代码解释，显著提升了小语种编程教育的可及性。

衍生相关工作

该数据集催生了系列低资源语言代码生成研究，包括基于迁移学习的多语言模型适配、克里奥尔语编程术语标准化等工作。相关成果已延伸至其他非洲语言技术项目，为构建包容性人工智能生态系统提供了重要范式。

数据集最近研究