five

Code-170k-tsonga

收藏
Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/michsethowusu/Code-170k-tsonga
下载链接
链接失效反馈
官方服务:
资源简介:
Code-170k-tsonga是一个包含176,999个编程对话的突破性数据集,这些对话最初来源于glaiveai/glaive-code-assistant-v2,并翻译成宗加语,使宗加语使用者能够接触编程教育。该数据集包含纯宗加语的多人对话,覆盖各种编程概念,适用于指导大型语言模型的指令微调。
创建时间:
2025-10-20
原始信息汇总

Code-170k-tsonga 数据集概述

基本信息

  • 数据集名称: Code-170k-tsonga
  • 数据集地址: https://huggingface.co/datasets/michsethowusu/Code-170k-tsonga
  • 许可证: Apache 2.0
  • 语言: 聪加语 (ts)
  • 任务类别: 文本生成、问答
  • 规模分类: 100K<n<1M

数据集规模

  • 训练集样本数量: 176,999
  • 训练集大小: 371,594,605 字节
  • 下载大小: 185,797,302 字节

数据集描述

Code-170k-tsonga 是一个包含 176,999 个编程对话的开创性数据集,原始数据来源于 glaiveai/glaive-code-assistant-v2,并翻译成聪加语,使聪加语使用者能够获得编程教育。

主要特征

  • 176,999 个高质量的编程和编码对话
  • 纯聪加语内容
  • 多轮对话,涵盖各种编程概念
  • 多样化主题:算法、数据结构、调试、最佳实践等
  • 适用于大型语言模型的指令调优

数据结构

数据字段

  • conversations: 对话轮次列表,每个轮次包含:
    • from: 说话者("human" 或 "gpt")
    • value: 聪加语的消息内容

数据示例

python { "conversations": [ { "from": "human", "value": "[聪加语问题]" }, { "from": "gpt", "value": "[聪加语回答]" } ] }

使用场景

  • 训练聪加语编码助手
  • 为聪加语开发者构建教育工具
  • 研究多语言代码生成
  • 创建聪加语编程教程
  • 支持低资源语言人工智能开发

标签

  • code
  • programming
  • ts
  • tsonga
  • african-languages
  • low-resource
  • multilingual
  • instruction-tuning
搜集汇总
数据集介绍
main_image_url
构建方式
在编程教育资源稀缺的非洲语言领域,Code-170k-tsonga数据集通过创新性的跨语言迁移技术构建而成。该数据集源自glaive-code-assistant-v2的17万条高质量编程对话,经由专业翻译流程转化为聪加语文本。构建过程中严格遵循多轮对话结构,完整保留了原始数据中人类提问与AI应答的交互模式,每个对话轮次均标注发言者身份与内容,确保数据结构的一致性与完整性。
特点
该数据集最显著的特征在于其专注于聪加语编程教育的稀缺资源填补,包含17万条涵盖算法设计、数据结构、代码调试等多元主题的对话实例。所有内容均以纯正的聪加语呈现,对话结构采用多轮交互形式,既能体现编程知识的渐进式传授特点,又符合实际教学场景的交流模式。作为低资源语言技术开发的重要语料,其精心设计的对话内容特别适用于大语言模型的指令微调任务。
使用方法
研究人员可通过Hugging Face生态系统便捷加载该数据集,使用标准接口即可获取完整的训练集数据。典型应用场景包括构建聪加语编程助手、开发本土化编程教育工具,以及开展多语言代码生成研究。数据以字典列表形式组织,每个对话包含发言者标识和文本内容,支持直接导入主流机器学习框架进行模型训练,为促进非洲语言技术发展提供重要基础设施。
背景与挑战
背景概述
随着人工智能技术在编程教育领域的深入应用,多语言代码生成数据集成为推动技术普惠的重要载体。Code-170k-tsonga数据集由研究团队于2025年基于glaiveai/glaive-code-assistant-v2原始语料构建,通过系统化翻译流程将17.7万条编程对话转换为聪加语。该数据集聚焦于低资源语言场景下的编程知识传递,通过涵盖算法设计、数据结构及调试实践等多维度对话内容,为非洲语言社区的计算机教育提供了关键基础设施,显著促进了跨语言代码生成技术的研究进程。
当前挑战
在编程教育领域,低资源语言的代码理解与生成长期面临语义对齐和术语规范化的核心难题。数据集构建过程中需克服三重挑战:原始英语编程术语与聪加语语言结构间的语义等价转换,技术概念在文化语境中的适应性重构,以及对话逻辑连贯性与技术准确性的双重校验。这些挑战直接影响了模型对编程意图的跨语言捕捉能力,同时也凸显了低资源语言技术生态中标准化语料建设的复杂性。
常用场景
经典使用场景
在自然语言处理领域,Code-170k-tsonga数据集主要应用于训练面向聪加语的代码生成模型。该数据集通过17万条高质量编程对话,为低资源语言环境下的指令微调提供了核心素材。模型能够基于聪加语的编程问题生成对应代码解决方案,有效支持算法实现、数据结构操作及调试技巧等多元场景。
实际应用
在实际应用层面,基于该数据集开发的聪加语编程助手可集成至在线教育平台,为母语者提供本土化的编程教学服务。此类工具能实时解答编程疑问、生成代码示例,显著降低非英语开发者学习编程的门槛,对促进非洲地区数字素养提升和技术人才培养具有现实意义。
衍生相关工作
该数据集已催生多项延伸研究,包括基于多语言对比的代码生成模型优化、低资源语言指令微调技术探索等。相关工作通过迁移学习策略将英语代码知识有效适配至聪加语场景,同时启发了针对其他非洲语言的类似数据集构建,形成跨语言技术传播的良性循环。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作