mm-llm-coder-dataset

Hugging Face2026-04-30 更新2026-05-01 收录

下载链接：

https://huggingface.co/datasets/amkyawdev/mm-llm-coder-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于训练编码大型语言模型的代码生成和调试数据集，包含编程问答和错误修复示例。数据集属于缅甸LLM数据集集合的一部分，专注于代码/技能类型。主要内容包括：代码生成（Python、JavaScript、TypeScript、React等语言）、错误修复模式、编程问答形式以及代码审查（最佳实践和优化）。数据集规模约为200万样本，采用JSON格式存储，每个样本包含消息对话（用户提问和助手回答）、类别、语言和难度等级。适用于代码生成、调试、代码审查和问答系统等应用场景。数据集使用Apache 2.0许可证。

创建时间：

2026-04-28

原始信息汇总

数据集详情总结：mm-llm-coder-dataset

基本信息

数据集名称：Coder Dataset - code-skill.md
许可证：Apache 2.0
语言：英语（单语）
数据规模：约 200 万条样本
数据格式：JSON
标签：代码生成、调试、Python、JavaScript、编程

数据集概述

该数据集专为训练编程相关的语言模型而设计，主要包含代码生成与调试任务。它是缅甸大语言模型数据集集合的一部分，专注于代码技能领域。

任务类型

代码生成：涵盖 Python、JavaScript、TypeScript、React 等编程语言的代码编写任务
调试：提供错误修复模式与案例
问答格式：包含编程问题与对应的解答
代码审查：涉及最佳实践和代码优化建议

数据格式

每条数据包含：

messages：对话消息列表，包含用户的问题和助手的回答
category：任务类别（如 code_debugging）
language：语言（英语）
difficulty：难度等级（如 intermediate）

使用方式

可通过 Hugging Face datasets 库加载：

python from datasets import load_dataset

dataset = load_dataset("amkyawdev/mm-llm-coder-dataset") sample = dataset["train"][0]

应用场景

代码生成模型训练：用于编程任务
调试学习：学习错误修复模式
代码审查训练：培养最佳实践能力
编程问答系统：构建编程帮助聊天机器人

搜集汇总

数据集介绍

构建方式

该数据集名为mm-llm-coder-dataset，隶属于缅甸大语言模型数据集合的一部分，专门针对代码生成与调试任务进行构建。数据来源涵盖Python、JavaScript、TypeScript及React等主流编程语言，以问答对形式组织，每条样本包含用户提问与助手回答的对话结构。此外，数据集还融入了错误修复模式与代码审查优化示例，形成约200万条高质量样本，并统一转换为JSON格式存储，便于后续模型训练与评估。

特点

数据集以代码技能为核心，囊括代码生成、缺陷调试、代码审查及编程问答四大应用场景。每条样本除对话内容外，还标注了类别（如code_debugging）、语言（英文）及难度等级（如intermediate），赋予数据多维属性。这种结构化设计使得数据集既覆盖基础编程任务，又支持进阶调试与优化需求，为训练具备代码理解与生成能力的大语言模型提供了丰富且层次分明的素材。

使用方法

通过HuggingFace的datasets库可直接加载该数据集，使用load_dataset('amkyawdev/mm-llm-coder-dataset')即可获取训练集。访问单个样本时，可提取messages字段中的用户与助手对话用于指令微调，或利用category字段筛选特定任务（如代码调试）。数据集还适用于构建编程聊天机器人、代码自动修复系统及教学辅助工具，开发者可根据需要按类别或难度划分数据进行定制化训练。

背景与挑战

背景概述

随着大语言模型在代码生成与调试领域的迅猛发展，高质量、多样化的代码数据集成为驱动模型性能提升的关键基石。mm-llm-coder-dataset由研究人员amkyawdev于近期创建，隶属于缅甸大语言模型数据集系列，旨在为编码型LLM提供包含Python、JavaScript、TypeScript及React等多语言的代码生成与错误修复训练样本。该数据集以约200万条JSON格式的问答对为核心，涵盖代码生成、调试模式、代码审查与最佳实践等任务，为提升模型在编程辅助、自动化调试及智能问答中的表现提供了坚实的资源支撑。其影响力体现在为多语言编程场景下的LLM微调与评估提供了标准化、大规模的基础数据集合。

当前挑战

该数据集面临的核心挑战之一在于领域问题：如何在有限的监督信号下，使模型掌握从代码生成到复杂调试的通用编程能力，尤其是在应对多语言混合与跨框架错误时保持高准确率。构建过程中，挑战则集中于数据多样性与质量的平衡——确保涵盖从基础语法到生产级CORS错误的广泛范例，同时避免噪声与冗余，并通过类别（如code_debugging）与难度等级的设计维持数据分布的合理性。此外，源自对话式社区（如缅甸数据）的原始内容需经过清洗、标准化与英文对齐，以消除语言与格式偏差，这对自动化流程与人工校验提出了协同要求。

常用场景

经典使用场景

在代码智能与自动化编程的浪潮中，mm-llm-coder-dataset成为了一个弥足珍贵的训练语料库。该数据集囊括了约200万条精心编排的代码生成与调试样本，覆盖Python、JavaScript、TypeScript及React等主流编程语言。其经典的使用场景在于为大语言模型提供高质量的编程指令微调数据，助力模型掌握从零生成完整代码片段、修复常见错误乃至重构优化代码的能力，是构建顶尖代码智能助手不可或缺的基础设施。

实际应用

在实际工业部署中，mm-llm-coder-dataset为构建智能编程助手和自动化开发工具提供了坚实的支撑。基于此数据集训练的模型能够集成到集成开发环境中，提供实时代码补全、智能错误提示以及安全漏洞扫描等功能。此外，它还能赋能在线教育平台，为学生解答编程问题并给出改进建议，或服务于自动化测试系统，利用其强大的代码审查能力降低企业级应用的维护成本，显著提升软件开发的效率与质量。

衍生相关工作

围绕mm-llm-coder-dataset，学术界已涌现出一系列富有成效的衍生工作。研究者在Fine-tuning阶段基于此数据开发了专用的指令调整策略，提升了模型对特定编程框架的响应准确率。同时，有工作利用该数据集的对话结构，将其融入多轮交互的代理系统（Agent）中，催生了更为复杂的代码代理数据集（如mm-llm-coder-agent-dataset）。这些衍生研究共同推动了从静态代码生成到动态任务规划与执行的技术演进，拓展了代码语言模型的应用边界。

以上内容由遇见数据集搜集并总结生成

amkyawdev/mm-llm-coder-dataset

该数据集是一个双语（缅甸语和英语）的编程指令数据集，主要用于训练缅甸语编程语言模型（LLMs）。数据集包含400万条样本，其中缅甸语和英语各占一半。数据格式为Parquet，包含训练集。数据集的结构包括指令、消息（多轮对话）、类别、语言、难度和任务类型等字段。类别分为9种，难度分为初级、中级和高级。数据集的使用场景包括缅甸语编程助手训练、跨语言代码问答、指令调优、代码调试助手和特定主题微调等。

Hugging Face2026-05-02 更新00

amkyawdev/mm-llm-coder-agent-dataset

这是一个用于训练编码代理的工作流数据集，包含多步编码任务、工具使用模式、执行验证和质量指标。数据集包含40,000,020个样本，格式为Parquet（Snappy压缩），分为4个文件。数据集详细记录了任务描述、多轮对话、类别、语言、难度、框架、运行时、数据库、环境、工具使用、工具调用、代码片段、执行结果、验证、评分、复杂度、测试用例、测试结果、依赖项和设置命令等信息。适用于训练编码代理、学习工具

Hugging Face2026-05-02 更新00

Coder A

The standard biomedical terminologies ICD-10, ICD-O, TNM, MeSH, NCIt, MedDRA, and SNOMED CT were used in a case study where two dimensions of cancer (anatomy and histology) had already been coded in a

DataCite Commons2020-08-27 更新130

mm-llm-coder-agent-dataset

该数据集是一个用于训练编码智能体的工作流数据集，包含多步骤的编码任务和工具使用模式。数据集是缅甸LLM数据集集合的一部分，专注于编码任务。主要内容包括：多步骤任务（顺序编码操作）、工具使用（终端、文件编辑器、浏览器工具）、执行反馈（成功/失败结果）以及质量指标（评分和验证状态）。数据集规模约为1,000,020个样本，数据格式为JSON，包含指令、类别、语言、难度、框架、运行时、数据库、环境、使用

Hugging Face2026-04-30 更新00

rl-llm-coders/cc_1k

该数据集包含了编程问题的名称、描述、测试用例（公开、私有和生成）、来源、难度、解决方案和不正确解决方案等信息。每个问题都有其来源标签，如CODECHEF、CODEFORCES等，以及难度等级，从EASY到HARDEST等。此外，数据集还包含了每个问题的语言解决方案，如PYTHON、CPP等。数据集划分为训练集，包含1000个示例，总大小约为2GB。

Hugging Face2025-03-28 更新80