amkyawdev/mm-llm-coder-agent-dataset
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/amkyawdev/mm-llm-coder-agent-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于训练编码代理的工作流数据集,包含多步编码任务、工具使用模式、执行验证和质量指标。数据集包含40,000,020个样本,格式为Parquet(Snappy压缩),分为4个文件。数据集详细记录了任务描述、多轮对话、类别、语言、难度、框架、运行时、数据库、环境、工具使用、工具调用、代码片段、执行结果、验证、评分、复杂度、测试用例、测试结果、依赖项和设置命令等信息。适用于训练编码代理、学习工具使用模式、执行验证、代理工作流和质量过滤等用途。
Agent workflow dataset for training coding agents. Contains multi-step coding tasks with tool usage patterns, execution validation, and quality metrics. The dataset includes 40,000,020 samples in Parquet format (Snappy compressed), divided into 4 files. It records task descriptions, multi-turn conversations, categories, languages, difficulties, frameworks, runtimes, databases, environments, tools used, tool calls, code snippets, execution results, validation, ratings, complexity scores, test cases, test results, dependencies, and setup commands. Suitable for training coding agents, learning tool usage patterns, execution validation, agent workflows, and quality filtering.
提供机构:
amkyawdev
搜集汇总
数据集介绍

构建方式
该数据集经由系统化的Agent工作流采集与构建,囊括了多达四百万条样本,全部以Snappy压缩的Parquet格式存储于四个文件中。构建过程中,数据通过模拟多步骤编码任务生成,每项任务均包含详细的工具调用记录(如终端、文件编辑器及浏览器操作)、执行反馈及自动化测试验证结果。数据集的字段设计涵盖了指令、多轮对话序列、任务类别(如代码生成、缺陷修复、重构)、难度等级、使用的框架与运行时环境、质量评分及复杂度分数等,确保了信息的全面性和结构化。
使用方法
使用该数据集时,可通过HuggingFace的`datasets`库便捷加载,加载命令为`load_dataset('amkyawdev/mm-llm-coder-agent-dataset', token='hf_xxx')`。此后,开发者可访问训练集中的样本,提取指令(instruction)、工具使用情况(tools_used)及评分(rating)等字段,用于多步骤编码Agent的模型训练。数据集支持按质量评分和执行验证结果进行筛选,非常适用于训练能够自动化完成终端操作、文件编辑及浏览器交互的智能编码代理。
背景与挑战
背景概述
在大型语言模型(LLM)与智能体(Agent)技术快速迭代的当下,构建能够自主完成多步编程任务的代理系统成为前沿研究方向。mm-llm-coder-agent-dataset由amkyawdev等研究者于近期创建,源自缅甸LLM数据集合集,旨在提供包含工具调用轨迹与执行验证的高质量编程代理训练数据。该数据集包含约4000万条样本,覆盖代码生成、调试与重构等场景,并融合了终端、文件编辑器、浏览器等多工具的JSON交互记录,为训练能执行复杂序列化操作的编码智能体提供了坚实的数据基础。其引入的质量评分(3-5分)与复杂度评分(1-10分)机制,使得研究者在模型训练时可依据标准化指标进行数据筛选,对提升LLM在真实编码环境中的自主决策与执行能力具有重要推动作用。
当前挑战
该数据集所解决的领域问题在于,现有编程数据集多聚焦于单步代码生成或简单问答,而缺乏对多步代理工作流及其与环境交互的系统化建模。构建过程中的挑战主要体现在三个层面:首先,数据采集需模拟真实编码场景中复杂的工具切换(如终端执行命令、编辑器修改文件、浏览器检索信息),并精确记录JSON格式的调用轨迹,这对数据收集管线提出了高并发与低延迟的要求;其次,为确保数据质量,必须对每一条样本进行执行验证(包括测试用例通过与否),同时人工或自动化地标注3-5分的质量评分,在4000万规模的样本量下,这一验证与标注过程面临显著的计算资源与人力成本;最后,多语言(英语与缅甸语)混杂以及多种框架(如Python、JavaScript、Docker等)的覆盖,使得数据标准化与格式统一成为构建中的持久挑战,稍有不慎便会导致模型训练时的噪声引入或泛化能力下降。
常用场景
经典使用场景
在代码生成与智能代理领域,mm-llm-coder-agent-dataset被广泛用作训练多步骤编码智能体的核心数据源。该数据集包含约400万条样本,覆盖了从代码编写、缺陷修复到重构等多种任务类型,每条样本均包含六轮对话历史、工具调用轨迹(如终端、文件编辑器和浏览器)以及执行结果反馈。研究人员常将其用于训练具备工具使用能力和环境交互感知的代码生成模型,使其能够完成从任务理解、代码实现到测试验证的闭环流程。该数据集的独特之处在于其内建的质量评分(3-5分)和复杂度评分(1-10分),使研究者能够根据任务难度和输出质量进行精细筛选,从而获得高质量的训练子集。
解决学术问题
该数据集致力于解决学术研究中代码生成智能体在复杂、多步骤任务中缺乏结构化训练数据的问题。传统代码生成数据集多聚焦于单步代码补全或简单问答,难以支撑对智能体在执行链式任务时进行有效约束与评估。mm-llm-coder-agent-dataset通过提供丰富的工具调用元数据、执行验证标志和测试用例结果,使研究者能够深入探讨智能体在编程任务中的行为建模、工具选择策略以及错误恢复机制。数据集中的语言字段支持英文和缅甸文双语,为跨语言代码生成和低资源语言编程智能体研究提供了关键基础资源,推动了多语言代码智能体领域的发展。
实际应用
在实际应用中,该数据集为构建自动化编程助手和智能软件开发环境提供了关键训练素材。基于这些数据训练的模型能够理解复杂的编程指令,自动调用终端命令执行编译或测试流程、操作文件编辑器修改代码,并通过浏览器查阅文档或搜索解决方案。这类智能体可广泛应用于持续集成管道中的代码质量检测、自动化错误修复工具、以及帮助初级开发者完成标准化的代码审核流程。数据集中涵盖的多种运行环境(本地、Docker、Kubernetes)和数据库(MongoDB、PostgreSQL)设置,使训练出的模型具备跨平台部署能力,能够在企业级软件工程场景中实现高效的代码生成与运维自动化。
数据集最近研究
最新研究方向
该数据集聚焦于编码智能体的工作流训练,涵盖了多步骤编程任务、工具调用轨迹与执行验证,为构建具备自主任务分解与工具协同能力的代码智能体提供了高质量训练资源。在近期前沿研究中,该数据集被用于微调大语言模型以模拟终端操作、文件编辑与浏览器交互等复杂代理行为,并结合质量评分与测试用例反馈强化模型在代码生成、调试及重构场景下的鲁棒性。其研究意义在于推动从单一代码生成向可执行、可验证的闭环智能体系统的跃迁,尤其契合当前AI工程化对自动化编程助手和持续集成管线的迫切需求,为构建可信赖的代码代理奠定了基础。
以上内容由遇见数据集搜集并总结生成



