Code-170k-sesotho
收藏Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-sesotho
下载链接
链接失效反馈官方服务:
资源简介:
Code-170k-sesotho 是一个包含 176,999 次编程对话的开创性数据集,这些对话最初来源于 glaiveai/glaive-code-assistant-v2 并翻译成 Sesotho 语,使得编程教育对 Sesotho 说话者变得触手可及。数据集覆盖了从算法到最佳实践的各种编程概念,并以纯 Sesotho 语言进行对话,适合指令微调大型语言模型。
创建时间:
2025-10-20
原始信息汇总
Code-170k-sesotho 数据集概述
数据集基本信息
- 数据集名称: Code-170k-sesotho
- 语言: 塞索托语 (st)
- 许可证: Apache 2.0
- 数据规模: 100K<n<1M
- 任务类别: 文本生成、问答
数据集内容
- 数据来源: 基于glaiveai/glaive-code-assistant-v2数据集翻译
- 数据量: 176,999个编程对话
- 数据格式: 多轮对话结构
- 存储大小: 下载大小161,691,933字节,数据集大小323,383,867字节
数据结构
数据字段
conversations: 对话列表from: 说话者身份("human"或"gpt")value: 塞索托语消息内容
数据示例
python { "conversations": [ { "from": "human", "value": "[塞索托语问题]" }, { "from": "gpt", "value": "[塞索托语回答]" } ] }
主要特点
- 高质量的编程对话数据集
- 纯塞索托语内容
- 涵盖多种编程概念和主题
- 适用于大型语言模型的指令调优
- 支持低资源语言AI开发
应用场景
- 训练塞索托语编程助手
- 构建塞索托开发者教育工具
- 多语言代码生成研究
- 创建塞索托语编程教程
搜集汇总
数据集介绍

构建方式
在促进非洲语言技术发展的背景下,Code-170k-sesotho数据集通过精心构建,将原始英语编程对话数据集glaive-code-assistant-v2翻译为塞索托语。该过程涉及专业语言转换,确保176,999条对话在保持编程知识准确性的同时,完整呈现多轮对话结构,涵盖算法、调试及最佳实践等多样化主题,为低资源语言社区提供高质量教育素材。
特点
该数据集以其纯塞索托语编程对话为显著特色,包含17万余条高质量交互记录,每段对话均以人类提问与模型回复的交替形式组织。内容覆盖数据结构、代码优化等核心编程领域,其多轮对话设计不仅模拟真实教学场景,更具备直接支持大语言模型指令微调的兼容性,为稀缺语言资源的技术应用树立了新标杆。
使用方法
使用者可通过Hugging Face数据集库直接加载该资源,利用标准接口调用训练集进行模型开发。具体操作包含导入load_dataset模块并指定数据集路径,即可遍历访问每段对话的发言角色与塞索托语内容。这种便捷的集成方式特别适用于构建塞索托语编程助手、开展多语言代码生成研究,以及开发面向非洲本土开发者的智能教育工具。
背景与挑战
背景概述
在人工智能推动多语言技术发展的浪潮中,Code-170k-sesotho数据集于2025年由Hugging Face平台发布,旨在解决编程教育资源在低资源语言中的稀缺性问题。该数据集基于glaiveai/glaive-code-assistant-v2的原始对话数据,通过专业翻译转化为塞索托语版本,覆盖算法设计、数据结构及调试实践等核心编程概念。作为首个大规模塞索托语编程对话资源,它不仅服务于本土化代码教育,更为低资源语言在自然语言处理领域的模型调优提供了关键数据支撑。
当前挑战
构建过程面临双重挑战:在领域问题层面,需克服低资源语言编程知识的结构化表达难题,确保技术术语在塞索托语中的准确性与一致性;在数据构建环节,既要维持原始代码逻辑的完整性,又需处理语言间的文化隐喻差异。此外,多轮对话的连贯性校验与专业术语的本地化适配,进一步增加了数据质量的保障难度。这些挑战直接关联到跨语言代码生成任务的可靠性与教育应用的实用性。
常用场景
经典使用场景
在低资源语言技术发展领域,Code-170k-sesotho数据集通过17万条塞索托语编程对话,为构建本土化代码助手提供了核心训练资源。这些多轮对话涵盖算法设计、数据结构实现及调试技巧等编程核心概念,显著提升了模型对非洲语言编程指令的理解与生成能力,为塞索托语开发者搭建起技术学习的桥梁。
解决学术问题
该数据集有效应对了多语言代码生成研究中低资源语言数据稀缺的学术挑战。通过将高质量编程知识转化为塞索托语对话,不仅填补了非洲语言在编程教育领域的空白,更为研究语言模型在跨语言指令微调中的适应性提供了实验基础,推动计算语言学在非英语环境下的理论创新。
衍生相关工作
受该数据集启发,研究社区已衍生出多项经典工作。包括基于多任务学习的塞索托语代码翻译模型、融合语法约束的低资源语言生成框架,以及针对非洲语言特性的课程学习策略。这些成果持续拓展着多语言NLP的技术边界,为类似低资源语言的技术赋能提供了可复现的范式。
以上内容由遇见数据集搜集并总结生成



