five

DCAgent2/swebench_verified_Qwen2_5_Coder_32B_Instruct_20260427_232252-traces

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_Qwen2_5_Coder_32B_Instruct_20260427_232252-traces
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: tool_definitions list: - name: function struct: - name: description dtype: string - name: name dtype: string - name: parameters struct: - name: additionalProperties dtype: bool - name: properties struct: - name: code struct: - name: description dtype: string - name: type dtype: string - name: command struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: file_text struct: - name: description dtype: string - name: type dtype: string - name: insert_line struct: - name: description dtype: string - name: type dtype: string - name: is_input struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: message struct: - name: description dtype: string - name: type dtype: string - name: new_str struct: - name: description dtype: string - name: type dtype: string - name: old_str struct: - name: description dtype: string - name: type dtype: string - name: path struct: - name: description dtype: string - name: type dtype: string - name: security_risk struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: task_list struct: - name: description dtype: string - name: items struct: - name: additionalProperties dtype: bool - name: properties struct: - name: id struct: - name: description dtype: string - name: type dtype: string - name: notes struct: - name: description dtype: string - name: type dtype: string - name: status struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: title struct: - name: description dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: thought struct: - name: description dtype: string - name: type dtype: string - name: timeout struct: - name: description dtype: string - name: type dtype: string - name: view_range struct: - name: description dtype: string - name: items struct: - name: type dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 491057775 num_examples: 1476 download_size: 430097821 dataset_size: 491057775 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于SWE-Bench Verified基准测试构建,通过启动Qwen2.5-Coder-32B-Instruct模型作为智能体,在软件工程任务环境中进行交互式轨迹采样。每条轨迹包含了完整的对话历史、工具调用定义(如代码编辑、文件操作、命令执行等)以及最终的任务验证结果,形成结构化的多轮交互数据。
特点
数据集包含1476条高质量轨迹样本,每条轨迹均记录了模型在解决真实软件工程问题时的完整推理与操作过程。其独特之处在于提供了细粒度的工具调用参数(如代码上下文、行号、安全风险标记)以及结构化任务列表,为研究代码智能体的行为模式与决策机制提供了丰富素材。
使用方法
该数据集适用于监督微调(SFT)或偏好对齐(如DPO、GRPO)等训练范式。用户可加载数据集中的'conversations'字段作为多轮对话训练样本,利用'result'和'verifier_output'字段构建奖励信号,或基于'tool_definitions'字段学习工具调用策略。建议将数据按标准格式转换为模型输入后,结合SWE-Bench评估协议进行训练与验证。
背景与挑战
背景概述
在软件工程与人工智能的交叉领域中,构建能够理解并执行复杂编程任务的智能代理一直是研究的热点。SWE-bench作为评估大语言模型在真实软件工程场景中解决问题的基准,近年来受到广泛关注。该数据集创建于2024年,由Qwen团队与相关合作机构共同开发,其核心研究问题在于探索大语言模型(特别是Qwen2.5 Coder 32B Instruct)在自动化代码修复与软件维护任务中的表现能力。通过记录模型与环境的完整交互轨迹,本数据集为分析智能代理的行为模式、决策路径及错误类型提供了珍贵的实证数据。作为SWE-bench的扩展验证版本,它在推动代码生成与程序修复领域的发展中扮演了关键角色,成为衡量模型软件工程能力的标尺之一。
当前挑战
该数据集所解决的领域问题挑战在于软件工程自动化中的代码修复与任务规划,具体包括:如何使大语言模型精准理解复杂的仓库级代码库并定位缺陷,以及如何生成安全且符合语义的修复方案。此外,构建过程面临显著挑战:首先,需要从SWE-bench原始基准中筛选高质量、可重现的已验证实例,确保标签准确性;其次,记录模型多步调用工具(如文件编辑、bash执行)的完整轨迹要求精细的状态追踪与日志管理;最后,不同Python版本、依赖冲突及测试环境差异对数据集的标准化与一致性构成严峻考验,需设计健壮的验证流程来过滤不可靠的交互数据。
常用场景
经典使用场景
在软件工程与人工智能的交叉领域中,swebench_verified_Qwen2_5_Coder_32B_Instruct_20260427_232252-traces数据集凭借其精细化的多轮对话结构与工具调用记录,成为研究代码智能体自主修复软件缺陷的经典资源。研究者常利用该数据集中的conversations字段,模拟智能体在真实开发环境中的决策历程,从而评测大语言模型在理解复杂代码库、定位错误并生成修复补丁方面的能力。数据集中包含的tool_definitions(如代码编辑、文件查看、命令执行等API定义)与agent的行为轨迹相呼应,为构建可解释、可复现的软件工程自动化实验提供了标准化基准。
实际应用
在实际生产环境中,该数据集可被用于训练和调试面向企业级代码仓库的智能开发助手。例如,开发团队可利用其丰富的交互日志来微调模型,使其熟悉常见的代码审查与合并请求流程,从而自动处理大量的重复性缺陷修复任务。数据中记录的run_id与episode信息还支持对同一任务在不同模型或配置下的表现进行回溯分析,有助于CI/CD流水线的智能化升级。此外,数据集的标准化结构降低了从实验研究到产品落地的迁移成本,为开发更精确、可信任的代码自动化工具提供了实测依据。
衍生相关工作
基于该数据集的研究已催生出一系列开创性工作,例如关于“多轮规划与工具增强型代码智能体”的模型架构改进工作,利用其对话序列训练出能够根据执行反馈自适应调整修复策略的智能系统。另一方向的工作则针对verifier_output的验证模式进行元学习,试图让模型在零样本场景下也能准确评估补丁质量。数据集中详细的工具—函数映射关系也启发了相关领域探索API调用序列的抽象表示学习,进而衍生出用于跨仓库迁移学习的预训练框架。这些衍生产出不仅强化了数据集本身在软件自动化领域的核心地位,也拓展了其在机器人流程自动化与低代码开发平台中的应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作