DCAgent2/swebench_verified_random_100_folders_DeepSWE_Preview_20260501_185848
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_DeepSWE_Preview_20260501_185848
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含对话数据,每条记录包含对话内容(content)和角色(role),以及代理(agent)、模型(model)、模型提供者(model_provider)、日期(date)、任务(task)、片段(episode)、运行ID(run_id)、试验名称(trial_name)、结果(result)和验证器输出(verifier_output)等信息。数据集分为一个训练集(train),包含300个样本,总大小为28,329,779字节。
This dataset contains conversation data, with each record including conversation content (content) and role (role), as well as agent, model, model provider (model_provider), date, task, episode, run ID (run_id), trial name (trial_name), result, and verifier output (verifier_output). The dataset is divided into a single training set (train) with 300 samples and a total size of 28,329,779 bytes.
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集源自SWE-bench Verified基准测试,通过从已验证的100个随机任务文件夹中筛选而出,并利用DeepSWE_Preview模型生成对话交互数据。构建过程首先选取SWE-bench中经过验证的软件工程任务,这些任务涵盖真实GitHub问题与补丁修复场景。随后,针对每个任务模拟多轮Agent与环境交互,记录完整的对话轨迹,包括用户指令、模型响应、系统状态及最终执行结果。每条样本包含角色对话内容、使用的Agent与模型信息、任务描述、运行标识符、结果状态以及验证器输出,共计300条训练样本,形成结构化数据集。
使用方法
使用该数据集时,可直接加载JSON格式文件,利用‘train’分割中的样本进行模型训练或评估。开发者可提取conversations字段作为对话序列,用于训练多轮交互Agent;或利用task与result字段构建任务级监督学习,如预测修复成功率。结合verifier_output可进行归因分析。数据集的字符串类型字段需按需编码,适合结合HuggingFace Transformers或自定义学习框架,以batch处理方式进行序列建模或指令微调实验。
背景与挑战
背景概述
该数据集名为swebench_verified_random_100_folders_DeepSWE_Preview_20260501_185848,创建于2026年5月1日,由DeepSWE研究团队构建,旨在为软件工程领域中的自动化代码修复与验证任务提供高质量的训练与评估资源。其核心研究问题聚焦于如何利用大语言模型驱动的智能体,在真实软件仓库的随机子集上生成、执行并验证代码补丁。该数据集包含300条训练样本,每条样本记录了智能体与环境的完整交互对话、模型来源、执行结果以及验证器输出,为多轮交互式代码修复任务的基准测试与模型微调奠定了重要基础,对推动自动化调试、持续集成与智能开发助手的发展具有显著影响力。
当前挑战
该数据集所解决的领域问题在于应对软件工程中自动化代码修复的可靠性困境——传统方法难以在复杂多变的真实仓库环境中生成正确且可验证的补丁。数据集的构建过程面临多重挑战:首先,需要从随机选取的100个仓库文件夹中提取多样化且具有代表性的Bug修复场景,确保数据集的泛化性;其次,设计统一的智能体交互协议与验证器,以公平评估不同模型与策略的修复效果;最后,处理多轮对话中可能出现的歧义、错误累积及验证不一致问题,保证标注与结果的高信噪比,这对数据流水线的鲁棒性提出了极高要求。
常用场景
经典使用场景
在软件工程与人工智能的交叉领域中,swebench_verified_random_100_folders_DeepSWE_Preview_20260501_185848数据集为研究者提供了一个精心构建的基准测试环境。该数据集收录了三百组由智能体执行软件工程任务时产生的完整对话轨迹,涵盖了从任务描述、模型选择、运行参数到最终结果的多元信息。其经典使用场景聚焦于评估和比较不同自动化软件工程框架的性能,尤其是在代码修复、模块重构与测试生成等典型任务上的表现。通过该数据集,研究人员能够系统性地分析智能体在复杂软件工程场景中的决策过程与执行效果。
解决学术问题
该数据集有效解决了学术界在自动化软件工程评估中面临的几个关键挑战。首先,它提供了标准化、多维度的高质量对话数据,使得不同智能体或算法的比较不再依赖单一的成功率指标,而是可以深入分析模型在不同阶段的行为模式。其次,数据集中的`verifier_output`字段引入了验证器的客观评价,缓解了传统评估中人工标注昂贵且易出错的问题。此外,通过对`agent`、`model`与`model_provider`等特征的细致划分,该数据促进了关于模型架构选择、推理策略优化以及领域适配性等学术问题的探索,显著推动了软件自动化领域的实证研究。
实际应用
在实际应用中,该数据集为软件工程智能化工具的开发与迭代提供了坚实的数据基础。开发者可以利用其中的对话轨迹训练更鲁棒的代码修复助手,使其在应对真实项目中的复杂bug时更具适应能力。数据集中的多轮交互记录也为构建智能代码审查系统提供了宝贵素材,系统可以学习如何根据开发者的反馈逐步调整修复策略。此外,基于该数据集训练出的模型能够辅助自动化测试用例生成,降低人工测试的工作负担,提升软件开发效率。在持续集成与持续部署(CI/CD)流水线中,这些智能化工具能够实现更快速的错误定位与修复,从而加速软件交付周期。
数据集最近研究
最新研究方向
在软件工程领域,随着大语言模型在代码生成与自动修复任务中的广泛应用,如何构建真实、可验证的评估基准成为研究热点。该数据集基于SWE-bench验证集,精选100个涵盖真实GitHub仓库issue修复任务的高质量样本,并创新性地引入DeepSWE智能体协同架构,通过多轮对话记录模型在任务执行中的完整推理轨迹与验证结果。这一设计不仅揭示了模型在复杂软件错误定位与修复中的行为模式,还为可复现的自动化软件工程研究提供了标准化实验框架,尤其是在评估模型与外部环境交互时的鲁棒性方面具有里程碑意义。当前学界正利用此类数据推动从静态代码补全向动态环境感知的软件智能体范式跃迁。
以上内容由遇见数据集搜集并总结生成



