DCAgent2/swebench_verified_random_100_folders_SWE_Lego_Qwen3_8B_20260425_004155
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_SWE_Lego_Qwen3_8B_20260425_004155
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于评估或训练AI代理在复杂任务中表现的对话数据,涉及多轮交互、工具使用和任务执行结果。特征包括对话内容(conversations)、代理类型(agent)、模型信息(model、model_provider)、任务描述(task)、日期(date)、运行标识(run_id)、工具定义(tool_definitions)以及结果和验证输出(result、verifier_output)。数据集分为训练集,包含296个示例,总大小约113.7MB。
This dataset contains conversational data for evaluating or training AI agents on complex tasks, involving multi-turn interactions, tool usage, and task execution outcomes. Features include conversations, agent type, model information (model, model_provider), task description, date, run identifier, tool definitions, and results with verifier output. The dataset is split into a training set with 296 examples and a total size of approximately 113.7MB.
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集基于SWE-bench Verified基准测试,从中随机筛选出100个软件工程任务实例,并利用SWE-Lego框架结合Qwen3-8B模型进行自动化修复实验。每条数据记录了完整的交互对话历史,包括用户指令、模型生成的行动序列以及工具调用细节。数据构建过程通过模拟开发者调试流程,采集了从问题理解、代码修改到验证反馈的全链路信息,最终形成296条高质量训练样本。
特点
数据集的核心特色在于其精细化的工具定义与行动结构化表示,涵盖了代码编辑、文件操作、命令执行、任务列表管理等13类原子工具,每个工具均包含详细的参数规范与枚举约束。对话序列中完整保留了模型的思考过程(thought)与多轮交互记录,使得每条数据不仅包含最终修复结果,还呈现了推理解题策略。此外,每条数据附带verifier_output字段,提供了自动化验证器的反馈信号,便于进行强化学习与离线评估。
使用方法
该数据集适用于训练和评估面向软件工程任务的Agent模型。使用时可将conversations字段作为多轮对话输入,利用tool_definitions中的函数定义指导模型调用外部工具。建议将每条数据视为一个完整的调试情节,结合result(最终修复状态)与verifier_output(验证器输出)作为监督信号,用于监督微调或基于反馈的强化学习。数据以标准对话格式组织,可直接接入HuggingFace Transformers的对话数据集加载接口。
背景与挑战
背景概述
该数据集名为swebench_verified_random_100_folders_SWE_Lego_Qwen3_8B_20260425_004155,由相关研究机构或团队于2025年4月创建,旨在评估和优化大语言模型在软件工程任务中的表现。其核心研究问题聚焦于模型对复杂、多步骤代码编辑及调试指令的理解与执行能力,尤其是涉及文件操作、任务拆解及安全风险判断等场景。数据集基于SWE-bench等基准进行扩展,引入多轮对话与工具调用记录,为智能编程助手的开发与评测提供了标准化资源。该数据集的出现推动了代码生成领域从单一代码补全向多步骤、交互式软件工程任务的转型,对提升AI辅助编程的实用性与鲁棒性具有重要参考价值。
当前挑战
该数据集面临的挑战主要包括两方面。在领域问题层面,现有大语言模型在处理需要多文件协同修改、上下文依赖复杂的软件工程任务时,常出现逻辑断裂或工具调用错误,难以保证修复方案的正确性与安全性。在构建过程中,需精心设计包含初始状态、目标结果及验证器输出的结构化样本,并确保对话记录能覆盖修剪、重排、插入等多样化的编辑操作,同时平衡任务难度与数据代表性,避免样本稀疏或过度拟合特定模型行为。此外,如何设计统一的验证机制以客观评估模型输出质量,也是构建过程中的关键难点。
常用场景
经典使用场景
在软件工程与人工智能的交叉领域,代码生成与自动修复任务始终是衡量大语言模型实用性的关键试金石。该数据集精选自 SWE-bench 验证集中的一百个代表性任务实例,每一实例均包含完整的代码仓库上下文、缺陷描述以及多轮人机协作式修复对话,为研究者提供了在真实软件项目环境中评估与微调模型代码编辑能力的标准化基准。利用这些结构化的交互轨迹,研究者可以深入分析模型在执行复杂软件工程任务时的决策机制,涵盖从问题定位、代码编辑到测试验证的完整流程。
解决学术问题
该数据集系统性地解决了现有基准中普遍存在的任务抽象化与评估片面性问题。传统的代码生成评测往往聚焦于函数级或片段级补全,而忽略了真实软件开发中涉及多文件协作、依赖分析和业务逻辑理解的闭环需求。该数据集通过大量包含任务拆解、文件遍历与错误修正的对话记录,为研究模型在长期规划、工具调用与上下文管理方面的能力提供了稀缺的数据支撑。它推动了学术界对‘大模型作为软件工程师’这一命题的实证研究,使得从单点代码生成迈向全流程软件自动运维成为可能。
衍生相关工作
围绕该数据集,衍生出了多个方向的研究工作。最直接的路径是基于 SWE-bench 框架的模型能力排行榜构建,各大厂商通过在此类数据上精调模型,催生了如 SWE-Llama、CodeGen-Repair 等一系列专注于软件修复的专用模型。更深层次地,研究者借助该任务结构发展出基于‘规划-编辑-验证’范式的 agent 框架,其中以 SWE-Agent 和 MetaGPT 为代表的工作深入探索了多工具协同与自我纠错机制。此外,该数据集中的安全风险标注字段也启发了一批专注于 AI 生成代码可信性的研究,推动了对模型输出在真实部署前的鲁棒性与安全验证的学术探讨。
以上内容由遇见数据集搜集并总结生成



