five

DCAgent2/swebench_verified_random_100_folders_OpenSWE_32B_20260430_212926

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_OpenSWE_32B_20260430_212926
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 85298278 num_examples: 280 download_size: 72015894 dataset_size: 85298278 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自OpenSWE框架在SWE-bench Verified子集上的自动化推理轨迹,通过随机采样100个软件工程任务,并利用32B参数规模的开源语言模型进行完整的多轮交互生成。每一条数据记录均包含完整的对话历史、代理配置、模型来源、时间戳及任务标识符,确保每轮推理过程的可复现性。数据集的构建过程注重结构化采集,将每一轮代理与环境的交互以“conversations”字段按序存储,兼顾时序逻辑与语义完整性。
特点
数据集的核心特色在于其天然的任务导向性与可验证性。每条数据附带独立的外部验证器输出(verifier_output)和最终执行结果(result),构成闭环评估机制。数据涵盖280条多样化软件工程实例,对话长度与复杂度分布广泛,能够有效反映不同难度任务的推理链条差异。此外,数据集中融入了模型来源(model_provider)与运行标识符(run_id),便于后续在跨模型对比和实验复现中溯源。
使用方法
推荐将本数据集应用于语言模型在软件工程场景下的行为分析与微调。使用者可直接利用“conversations”字段提取完整的代理推理轨迹,作为监督式微调的正例或对比学习的上下文模板。通过“result”与“verifier_output”字段,可对模型输出进行自动化质量评估。同时,支持按“task”字段过滤特定类型的软件工程任务,亦可按“model”或“date”字段进行分组分析,用于比较不同模型版本或时间阶段的推理演化趋势。
背景与挑战
背景概述
该数据集创建于2026年4月30日,由OpenSWE团队基于SWE-bench验证集构建,旨在评估和提升大语言模型在软件工程任务中的自主代码修复能力。核心研究问题聚焦于如何利用32B参数级别的开源模型在真实代码仓库中自动定位并修复错误,从而推动AI辅助软件开发的前沿。该数据集包含280个训练样本,每条数据记录了模型与环境的完整对话历史、执行结果及验证器输出,为研究代码智能体在复杂工程场景下的决策过程提供了宝贵的基准。其对相关领域的影响力体现在,通过细粒度的任务跟踪和结果验证,为后续开发更鲁棒的自动程序修复系统奠定了基础,并促进了开源社区在软件工程自动化方向的协作与创新。
当前挑战
该数据集面临的挑战主要体现在两个方面。在领域问题层面,它致力于解决软件工程中自动化漏洞修复这一长期难题,即如何使AI系统理解大型代码仓库的结构、依赖关系及业务逻辑,从而生成正确且兼容的补丁,而非仅处理孤立的小型代码片段。在构建过程中,挑战包括:确保模拟环境与真实开发环境的高度一致性,避免因环境差异导致无效评估;设计全面且无偏的验证器,以准确判断修复是否通过所有测试用例;以及处理多轮交互中长上下文带来的模型注意力衰减问题,确保关键信息不被稀释。这些挑战直接关系到数据集作为评估基准的可靠性与泛化能力。
常用场景
经典使用场景
在软件工程与人工智能的交叉领域中,该数据集为智能代码修复与自动化编程研究提供了珍贵的实验素材。其核心价值在于记录了大语言模型在真实软件工程任务(如SWE-bench验证集合)中的多轮交互轨迹,涵盖对话、动作、结果及验证器输出等结构化信息。研究者常利用这些数据训练或微调能够理解代码仓库上下文、自主定位缺陷并生成修复补丁的智能代理,从而复现或改进基于对话的自动化软件维护流程。这种数据驱动的方式使得模型能够学习从需求描述到代码修改的端到端推理能力,成为评估和推动前沿代码智能体发展的关键基准。
解决学术问题
该数据集直面当前大语言模型在软件工程应用中普遍存在的验证与泛化难题。传统的代码生成基准多关注单函数级任务,而本数据集通过记录模型在复杂仓库级问题上的完整试错过程,为研究长期规划、工具调用、上下文依赖等学术问题提供了可量化分析的基础。它帮助学者探究模型在不同难度任务上的失败模式、自我纠错机制以及验证器反馈对策略调整的影响,从而推动更鲁棒、更可解释的自动化编程理论的发展。同时,其开放的交互日志促进了可复现实验的开展,为对比不同架构、训练策略的效能提供了统一规范的评价平台。
衍生相关工作
围绕此类软件工程交互数据,学术界已衍生出诸多经典工作。最为显著的是SWE-bench系列基准的建立,其通过标准化任务集合与验证流程,系统性地评估了大语言模型作为软件工程代理的能力。在此基础上,研究者进一步提出了Agent框架的改进,如融合检索增强生成、动态规划与自我反思机制,显著提升了修复成功率。此外,数据集中记录的失败案例催生了关于模型决策可解释性的研究,分析智能体在错误定位、补丁生成等环节的常见陷阱,并由此衍生出专门的错误模式分类学与针对性训练策略,持续推动着自动化软件工程领域的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作