five

DCAgent2/swebench_verified_random_100_folders_swelego_SWE_Lego_Qwen3_32B_20260430_233707

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_swelego_SWE_Lego_Qwen3_32B_20260430_233707
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: tool_definitions list: - name: function struct: - name: description dtype: string - name: name dtype: string - name: parameters struct: - name: properties struct: - name: code struct: - name: description dtype: string - name: type dtype: string - name: command struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: file_text struct: - name: description dtype: string - name: type dtype: string - name: insert_line struct: - name: description dtype: string - name: type dtype: string - name: is_input struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: message struct: - name: description dtype: string - name: type dtype: string - name: new_str struct: - name: description dtype: string - name: type dtype: string - name: old_str struct: - name: description dtype: string - name: type dtype: string - name: path struct: - name: description dtype: string - name: type dtype: string - name: thought struct: - name: description dtype: string - name: type dtype: string - name: timeout struct: - name: description dtype: string - name: type dtype: string - name: view_range struct: - name: description dtype: string - name: items struct: - name: type dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 208111551 num_examples: 297 download_size: 192562107 dataset_size: 208111551 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自SWE-bench Verified基准,从中随机抽取100个真实软件工程任务,并利用SWE-Lego流程对Qwen3-32B模型进行多轮交互式数据采集。具体而言,在每个任务中,模型以对话形式调用预定义工具(如代码编辑、文件查看、命令执行等),生成包含思考过程、指令、代码修改及执行结果的完整交互记录。所有对话均经过验证器输出和任务结果的标注,确保了数据与任务完成状态的一一对应。最终收集297条样本,以JSON格式存储,适用于训练和评估代码生成与软件调试模型。
特点
数据集最显著的特点在于其高保真的工具调用结构,每条样本包含详细的工具定义和参数约束,例如code、command、file_text等字段,使得模型能学习到结构化的编程行为。其次,数据覆盖了多样化的软件工程场景,每个episode对应一个完整的调试或功能实现过程。此外,对话历史中明确标注了角色(role)和内容(content),便于进行多轮对话建模。数据集还提供了agent、model、run_id等元信息,增强了数据的可追溯性和实验复现性。
使用方法
使用该数据集时,可直接通过HuggingFace Datasets库加载配置为default的train分片,每条样本包含conversations列表、tool_definitions、result和verifier_output等关键字段。典型应用场景包括训练基于代码的AI助手,将多轮对话输入与工具调用序列结合,作为监督信号指导模型学习任务导向的编程行为。研究者亦可过滤result任务结果的正确性,用于偏好对齐或强化学习中的奖励信号构建。数据以streaming方式加载亦受支持,便于处理大规模训练需求。
背景与挑战
背景概述
在软件工程领域,自动化代码修复与智能体系统的发展日益受到学界与工业界的关注。swebench_verified_random_100_folders_swelego_SWE_Lego_Qwen3_32B_20260430_233707数据集由研究团队基于SWE-bench验证集构建,旨在评估和提升大语言模型在复杂软件工程任务中的表现。该数据集包含297条对话记录,每条记录涵盖了智能体(agent)、模型(model)、工具定义(tool_definitions)及任务结果(result)等结构化信息,核心研究问题聚焦于如何利用大语言模型结合工具调用完成真实的软件工程维护与修复任务。这一数据集的问世,为探索语言模型在代码生成、调试与补丁生成等环节的推理能力提供了标准化评测基准,对推动自动化软件工程的发展具有重要价值。
当前挑战
该数据集所面临的挑战首先体现在领域问题的复杂性上:软件工程任务不仅要求模型理解代码语义,还需掌握项目结构、依赖关系及动态执行环境,这与传统自然语言处理任务有本质区别。模型需在有限上下文中精准定位缺陷、生成符合项目规范的代码补丁,并处理多步骤交互与错误恢复。其次,构建过程中面临的挑战在于数据的真实性与多样性:样本源自SWE-bench验证集中的随机抽取,需确保每个任务均具备可复现的验证环境与明确的判定标准。此外,工具定义中涉及多种参数类型(如代码修改、文件路径、视图范围等)的规范化标注,以及智能体行为轨迹的完整记录,均对数据清洗与结构化提出了较高要求。最后,297条样本的规模在覆盖广泛软件工程场景时仍显有限,如何平衡数据质量与规模是一大难题。
常用场景
经典使用场景
该数据集是SWE-bench验证集的一个精选子集,专为评估和训练大型语言模型在软件工程任务中的自主代码修复能力而设计。其经典使用场景集中在基于对话式交互的智能体(Agent)开发与评测中,研究者可利用其中包含的丰富多轮对话记录、工具调用轨迹及验证结果,构建能够理解仓库级代码、定位缺陷并生成正确补丁的自动化编程系统。数据集中每条样本均完整记录了从任务解析到补丁提交的全流程交互历史,为模拟真实世界的软件开发协作提供了高保真基准。
衍生相关工作
该数据集衍生了一系列经典研究工作,包括基于状态空间建模的Agent路由策略、结合执行反馈的多轮修正框架以及竞争性自我对弈式补丁优化方法。研究者利用其结构化的轨迹数据,发展出将外部知识库检索与工具调用解耦的模块化编码范式,并催生了以'软件工程双人竞技'为名的多智能体协作挑战赛。这些衍生工作进一步拓展了数据集的价值,使其从单一评测基准演进为探索语言模型在复杂工具链编排中认知能力的实验场,推动了代码智能体从实验室原型向工业级应用的跨越。
数据集最近研究
最新研究方向
该数据集聚焦于软件工程前沿领域中的自动化缺陷修复与智能体协作研究,特别是针对大规模语言模型在真实代码环境中的问题解决能力评估。近年来,随着大语言模型在代码生成和调试中展现出惊人潜力,业界与学界高度关注如何构建高保真度、可复现且具备细粒度追踪能力的基准测试集。swebench_verified_random_100_folders_swelego_SWE_Lego_Qwen3_32B数据集记录了Qwen3-32B模型在SWE-bench已验证实例上的完整交互轨迹,包含工具调用、代码修改及验证结果,为研究基于智能体的端到端软件维护方案提供了结构化数据支撑。该方向的热点事件包括各大AI实验室竞相开发能够自主修复GitHub Issue的编程助手,数据集的发布显著推动了对模型逻辑推理、上下文理解及多步规划能力的评测,为构建更可靠、更高效的自动化软件工程系统奠定了基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务