DCAgent2/swebench_verified_random_100_folders_SA_SWE_32B_20260424_203310

Name: DCAgent2/swebench_verified_random_100_folders_SA_SWE_32B_20260424_203310
Creator: DCAgent2
Published: 2026-04-24 22:15:45
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_SA_SWE_32B_20260424_203310

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 41791413 num_examples: 299 download_size: 26186469 dataset_size: 41791413 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集基于SWE-bench Verified基准测试中的100个随机选取的软件工程任务，通过调用SA-SWE-32B模型进行自动修复实验构建而成。每个任务由智能体与系统的多轮对话记录组成，涵盖从问题理解、代码修改到最终验证的完整流程，最终生成包含299个训练样本的结构化数据集。

特点

数据集包含丰富的元信息字段，如agent（执行智能体）、model（使用的模型）、verifier_output（验证器输出）等，便于追踪每个修复回合的详细过程。所有样本均标注了result字段，指示任务是否被成功解决，为评估模型在真实软件工程场景下的能力提供了可靠基准。

使用方法

该数据集可直接用于训练和评估基于对话的软件工程智能体。用户可通过HuggingFace Datasets库加载数据，利用conversations字段中的多轮对话序列作为输入，结合result和verifier_output等标签进行监督学习或强化学习，以提升模型在代码修复任务上的表现。

背景与挑战

背景概述

该数据集名为swebench_verified_random_100_folders_SA_SWE_32B_20260424_203310，创建于2026年4月24日，由研究机构在软件工程与人工智能交叉领域构建。核心研究问题聚焦于利用大语言模型（如32B参数规模的SA_SWE模型）在真实软件工程任务中的自动化代码生成与验证能力。数据集的构建基于SWE-Bench基准，旨在评估模型在复杂软件仓库中完成补丁生成、bug修复等任务的性能。通过对100个随机选取的文件夹进行验证性实验，该数据集为自动化软件工程研究提供了可复现的评测平台，对推动AI辅助编程、持续集成与代码审查等领域的进展具有重要意义。

当前挑战

该数据集所解决的领域问题挑战在于，真实软件工程任务不仅要求模型理解海量代码上下文，还需生成符合语法规范且功能正确的补丁，这对模型的长期依赖处理与逻辑推理能力提出严峻考验。构建过程中的挑战包括：确保100个随机选取的文件夹在任务难度、代码规模与领域多样性上具有代表性，避免评估偏差；设计可靠的验证器（verifier）以自动化判断生成补丁的正确性，需平衡误判率与计算成本；同时，需标准化多轮对话交互记录（conversations）的格式，以统一不同模型的输出与评估流程，这要求精细的数据清洗与标注工作。

常用场景

经典使用场景

SWE-bench Verified Random 100 Folders SA SWE 32B 数据集专为评估和训练软件工程代理（Software Engineering Agent）而设计，其核心应用场景在于模拟真实世界的代码仓库环境，让代理完成一系列具有挑战性的软件工程任务。这些任务涵盖从代码缺陷修复、功能实现到单元测试编写等典型开发活动，旨在全面衡量代理对代码库的理解、上下文推理与自动补全能力。通过提供结构化的对话记录与任务结果，该数据集成为构建和验证端到端软件工程智能体的关键基准，尤其适用于大规模语言模型在复杂编程生态中的适应性研究。

衍生相关工作

源于该数据集的基准作用，学术界催生了一系列与之紧密相关的经典工作。其中最具代表性的是SWE-agent和Devin等工作的研究，它们借鉴了该数据集的评测范式，探索了将语言模型与代码执行环境、文件系统、版本控制工具等外部模块深度整合的架构设计。此外，该数据集还激发了关于多步骤推理与记忆机制的研究，推动了Agent框架内反思与重试策略的优化，衍生出如CodeGen系列在长上下文建模、检索增强生成（RAG）以及工具调用方面的改进版本。这些后续工作反过来又通过在该数据集上进行严格的消融实验，验证了其各自方法的有效性，形成了一个从数据构建到方法验证再到模型演进的良性循环。

数据集最近研究