mm-llm-coder-agent-dataset

Hugging Face2026-04-30 更新2026-05-01 收录

下载链接：

https://huggingface.co/datasets/amkyawdev/mm-llm-coder-agent-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于训练编码智能体的工作流数据集，包含多步骤的编码任务和工具使用模式。数据集是缅甸LLM数据集集合的一部分，专注于编码任务。主要内容包括：多步骤任务（顺序编码操作）、工具使用（终端、文件编辑器、浏览器工具）、执行反馈（成功/失败结果）以及质量指标（评分和验证状态）。数据集规模约为1,000,020个样本，数据格式为JSON，包含指令、类别、语言、难度、框架、运行时、数据库、环境、使用工具、代码片段、执行结果和验证状态等字段。适用于训练编码智能体、学习工具使用模式、调试错误处理以及智能体工作流等应用场景。数据集采用Apache 2.0许可证。

创建时间：

2026-04-28

原始信息汇总

数据集概述：Coder Agent Dataset - agent-skill.md

基本信息

数据集名称：Coder Agent Dataset - agent-skill.md
页面地址：https://huggingface.co/datasets/amkyawdev/mm-llm-coder-agent-dataset
许可证：Apache-2.0
语言：英语（单语）
数据规模：约 1,000,020 条样本（1M 至 10M 之间）
数据格式：JSON
标签：代码生成、代理工作流、Python、编码

数据集描述

该数据集用于训练编码代理（coding agents），包含多步编码任务以及工具使用模式。它属于缅甸 LLM 数据集集合的一部分，专注于**代理/技能（Agent/Skill）**类型。

数据统计

指标	数值
总样本数	~1,000,020

数据格式示例

每条数据包含以下字段：

字段	说明
messages	消息序列
instruction	指令描述（如“构建一个 REST API”）
category	类别（如 code_generation）
language	语言（en）
difficulty	难度级别（如 intermediate）
framework	框架（python）
runtime	运行环境（python）
database	数据库类型（postgresql）
environment	运行环境（docker）
tools_used	使用的工具列表（如 terminal, file_editor）
code_snippets	代码片段
execution_result	执行结果（success）
validated	验证状态（true）

使用场景

训练编码代理：自动化多步任务
工具使用模式学习：掌握终端、文件操作等工具
调试与修复：错误处理及修复模式
代理工作流：顺序任务完成

数据集加载示例

python from datasets import load_dataset

dataset = load_dataset("amkyawdev/mm-llm-coder-agent-dataset") print(dataset)

访问样本

sample = dataset["train"][0] print("Instruction:", sample["instruction"]) print("Tools used:", sample["tools_used"])

相关数据集

chat-skill.md：amkyawdev/myanmar-llm-data
code-skill.md：amkyawdev/mm-llm-coder-dataset

搜集汇总

数据集介绍

构建方式

该数据集源自缅甸大型语言模型数据集集合，专注于构建用于训练编码智能体的工作流数据。其构建方式通过采集多步编码任务，并整合终端、文件编辑器和浏览器等工具的使用模式，辅以执行反馈与质量评价指标，形成结构化样本。每个条目以JSON格式存储，包含指令、类别、语言、难度、框架、运行时环境、数据库、工具列表、代码片段、执行结果及验证状态等字段，确保数据多元且规范。

特点

数据集规模达百万级样本，核心特点在于模拟真实编码场景中的多步协作流程，支持智能体习得顺序化操作与工具调用能力。每条数据均具备执行成功或失败的标注，以及验证状态与评分，便于模型学习调试与错误修复。此外，数据集覆盖代码生成类别，并提供难度分级和框架环境信息，适应从初级到高级的不同训练需求，兼具实用性与可扩展性。

使用方法

使用者可通过HuggingFace的datasets库便捷加载该数据集，调用`load_dataset`函数即可获取训练集。示例中展示如何访问首条样本的指令和工具使用列表，适用于开发编码智能体、研究工具调用模式、调试流程及自动化任务管理工作流。数据集结构清晰，字段定义明确，便于直接用于微调语言模型或评估智能体性能，无需额外预处理。

背景与挑战

背景概述

该数据集由amkyawdev研究团队于近期构建，旨在弥合大型语言模型在编码代理任务中的能力鸿沟。随着自主编程代理的兴起，如何让模型掌握多步骤编码操作、工具调用及执行反馈处理成为核心研究问题。该数据集包含超过100万条样本，涵盖终端、文件编辑器及浏览器等多工具协作场景，为训练具备复杂工作流理解能力的编码代理提供了基石。其发布推动了代码生成领域从单一文本生成向交互式代理系统的范式转变，在开源社区中具有显著影响力。

当前挑战

数据集所解决的领域问题在于现有模型难以处理需要顺序决策与工具调用的编码任务，传统监督学习范式无法建模代理工作流中的动态反馈循环。构建过程中面临的主要挑战包括：1) 模拟真实编码环境的多步交互数据收集困难，需设计复杂的状态追踪机制；2) 跨工具协作场景的标注一致性难以保证，不同工具输出格式差异增加标准化难度；3) 执行结果的自动验证与质量评估需要建立可靠的度量体系，以过滤无效样本并确保训练数据的鲁棒性。

常用场景

经典使用场景

该数据集专为训练具备多步骤任务执行能力的编码智能体而设计，在代码生成与智能体工作流领域具有重要地位。其经典使用场景聚焦于引导大型语言模型掌握终端操作、文件编辑和浏览器交互等工具调用模式，并通过执行反馈与质量评分机制强化模型的纠错与迭代能力。研究人员常将其作为基准，以评估模型在复杂编程任务中的顺序决策、工具编排与结果验证方面的表现，尤其适用于需要环境交互的自动化代码生成任务。

实际应用

在实际应用中，该数据集可用于构建企业级自动化编码助手，例如自动部署服务、数据库操作脚本生成及容器环境下的代码调试。基于该数据训练的模型能够理解并执行多阶段工作流，如从需求描述出发，依次完成存储设计、API编写、测试运行与错误修复。此外，还可应用于智能研发生命周期管理、代码审查辅助和持续集成/持续部署场景中的自主故障恢复，为提升软件工程效率提供了切实可行的解决方案。

衍生相关工作

以此数据集为基石，衍生出一系列针对编码智能体的专项研究工作，包括基于工具调用链的表示学习、多层次执行反馈驱动的自我改进机制以及多智能体协作框架的构建。相关经典工作涵盖SWE-Bench等环境下的智能体评估基准优化、CodeAgent架构中长程依赖问题的缓解策略，以及融合文档检索与状态监测的增强型推理管线。这些工作进一步验证了该数据集作为通用训练资源的有效性，并为后续工具增强型语言模型的发展奠定了重要基础。

以上内容由遇见数据集搜集并总结生成