DCAgent2/swebench_verified_random_100_folders_SA_SWE_32B_20260424_203310
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_SA_SWE_32B_20260424_203310
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 41791413
num_examples: 299
download_size: 26186469
dataset_size: 41791413
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集基于SWE-bench Verified基准测试中的100个随机选取的软件工程任务,通过调用SA-SWE-32B模型进行自动修复实验构建而成。每个任务由智能体与系统的多轮对话记录组成,涵盖从问题理解、代码修改到最终验证的完整流程,最终生成包含299个训练样本的结构化数据集。
特点
数据集包含丰富的元信息字段,如agent(执行智能体)、model(使用的模型)、verifier_output(验证器输出)等,便于追踪每个修复回合的详细过程。所有样本均标注了result字段,指示任务是否被成功解决,为评估模型在真实软件工程场景下的能力提供了可靠基准。
使用方法
该数据集可直接用于训练和评估基于对话的软件工程智能体。用户可通过HuggingFace Datasets库加载数据,利用conversations字段中的多轮对话序列作为输入,结合result和verifier_output等标签进行监督学习或强化学习,以提升模型在代码修复任务上的表现。
背景与挑战
背景概述
该数据集名为swebench_verified_random_100_folders_SA_SWE_32B_20260424_203310,创建于2026年4月24日,由研究机构在软件工程与人工智能交叉领域构建。核心研究问题聚焦于利用大语言模型(如32B参数规模的SA_SWE模型)在真实软件工程任务中的自动化代码生成与验证能力。数据集的构建基于SWE-Bench基准,旨在评估模型在复杂软件仓库中完成补丁生成、bug修复等任务的性能。通过对100个随机选取的文件夹进行验证性实验,该数据集为自动化软件工程研究提供了可复现的评测平台,对推动AI辅助编程、持续集成与代码审查等领域的进展具有重要意义。
当前挑战
该数据集所解决的领域问题挑战在于,真实软件工程任务不仅要求模型理解海量代码上下文,还需生成符合语法规范且功能正确的补丁,这对模型的长期依赖处理与逻辑推理能力提出严峻考验。构建过程中的挑战包括:确保100个随机选取的文件夹在任务难度、代码规模与领域多样性上具有代表性,避免评估偏差;设计可靠的验证器(verifier)以自动化判断生成补丁的正确性,需平衡误判率与计算成本;同时,需标准化多轮对话交互记录(conversations)的格式,以统一不同模型的输出与评估流程,这要求精细的数据清洗与标注工作。
常用场景
经典使用场景
SWE-bench Verified Random 100 Folders SA SWE 32B 数据集专为评估和训练软件工程代理(Software Engineering Agent)而设计,其核心应用场景在于模拟真实世界的代码仓库环境,让代理完成一系列具有挑战性的软件工程任务。这些任务涵盖从代码缺陷修复、功能实现到单元测试编写等典型开发活动,旨在全面衡量代理对代码库的理解、上下文推理与自动补全能力。通过提供结构化的对话记录与任务结果,该数据集成为构建和验证端到端软件工程智能体的关键基准,尤其适用于大规模语言模型在复杂编程生态中的适应性研究。
衍生相关工作
源于该数据集的基准作用,学术界催生了一系列与之紧密相关的经典工作。其中最具代表性的是SWE-agent和Devin等工作的研究,它们借鉴了该数据集的评测范式,探索了将语言模型与代码执行环境、文件系统、版本控制工具等外部模块深度整合的架构设计。此外,该数据集还激发了关于多步骤推理与记忆机制的研究,推动了Agent框架内反思与重试策略的优化,衍生出如CodeGen系列在长上下文建模、检索增强生成(RAG)以及工具调用方面的改进版本。这些后续工作反过来又通过在该数据集上进行严格的消融实验,验证了其各自方法的有效性,形成了一个从数据构建到方法验证再到模型演进的良性循环。
数据集最近研究
最新研究方向
该数据集聚焦于软件工程领域中大语言模型自主代理的代码修复能力评估,属于前沿的“AI for Software Engineering”方向。其核心价值在于通过结构化的多轮对话记录,捕获模型在真实SWE-bench验证集上的完整推理过程与修复结果,为研究代码生成、错误定位及自动程序修复提供了可复现的高质量基准。当前热点事件如“AI辅助编程工具大规模部署”与“大模型可靠性验证”紧密关联于此数据集,通过追踪不同代理(agent)和模型的修复成功模式,可深入分析模型在复杂编程任务中的短板与优势,对推动大模型在软件工程中的实际落地具有重要的指导意义。
以上内容由遇见数据集搜集并总结生成



