DCAgent2/swebench_verified_random_100_folders_a2_rl_e2egit_v2_20260425_042533

Name: DCAgent2/swebench_verified_random_100_folders_a2_rl_e2egit_v2_20260425_042533
Creator: DCAgent2
Published: 2026-04-25 08:46:46
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_a2_rl_e2egit_v2_20260425_042533

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 28537740 num_examples: 300 download_size: 14928422 dataset_size: 28537740 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集源自SWE-bench Verified验证集，通过随机采样100个真实软件工程问题，结合自动化智能体（Agent）与强化学习（RL）及端到端Git操作（E2E Git）技术，迭代生成多轮交互数据。每个样本包含完整的对话历史、模型信息、任务描述及执行结果，经由验证器（Verifier）进行结果校验，最终构建为300条高质量训练样本。

使用方法

该数据集可直接用于训练和评估基于对话的软件工程智能体。使用时需解析'conversations'字段中的角色与内容序列，构建模型输入；并可利用'verifier_output'字段进行结果对齐与奖励建模。建议采用HuggingFace Datasets库加载，通过指定split='train'读取300条样本，结合传统监督学习或强化学习框架进行微调。

背景与挑战

背景概述

该数据集名为swebench_verified_random_100_folders_a2_rl_e2egit_v2_20260425_042533，创建于2026年4月25日，由致力于软件工程与强化学习交叉领域的研究机构开发。其核心研究问题聚焦于利用强化学习与端到端Git操作，自动化解决SWE-bench验证集中的随机100个软件工程任务，旨在评估和提升AI代理在真实代码仓库中执行复杂修复与重构的能力。该数据集通过记录完整的对话历史、模型输出及验证结果，为训练和评测具有自主代码操作能力的智能体提供了标准化基准，有望推动自动化软件维护领域的进展，对提升开发效率和代码质量具有显著的实践影响。

当前挑战

该数据集所解决的领域问题挑战在于，现有数据集多聚焦于静态代码理解或孤立补丁生成，缺乏对真实软件仓库中多文件、多步骤的端到端修复任务的覆盖，难以评估AI代理在动态Git环境下的决策与执行能力。在构建过程中，面临的主要挑战包括：如何从SWE-bench中随机筛选出100个代表性任务以保障多样性与公平性；设计强化学习环境以准确模拟Git操作（如分支管理、提交、合并）的复杂状态；以及确保验证机制（verifier_output）能够可靠判别任务完成质量，避免虚假成功信号对模型训练的误导。

常用场景

经典使用场景

该数据集专注于软件工程领域的自动化任务求解，尤其适用于基于强化学习与端到端Git操作的智能体训练。其经典使用场景在于构建和评估能够自主理解、修复代码仓库中复杂Bug的AI系统。数据集包含了完整的对话历史，记录了智能体在模拟环境中与代码库交互、执行Git命令并最终提交修复的全过程，为研究者提供了验证算法在多步决策和代码修改任务中表现的标准测试集。

解决学术问题

该数据集旨在解决程序合成与自动程序修复领域中的关键学术难题，即如何通过强化学习范式实现端到端的代码修改决策。它突破了传统方法仅依赖局部代码片段的局限，要求模型在真实仓库结构下进行上下文感知的Bug定位与修复。这一数据集的发布推动了从静态代码补全到动态交互式软件维护的研究范式转变，显著提升了AI在复杂软件工程任务中的自主决策能力，并为后续多智能体协作和长程推理的研究奠定了数据基础。

实际应用

在实际应用中，该数据集为开发高效的AI辅助软件维护工具提供了训练与评估基准。基于该数据训练的模型可集成到持续集成/持续部署（CI/CD）流水线中，自动对代码仓库中的失败测试进行根因分析并生成修复补丁。此外，它还可赋能代码审查助手，帮助开发者快速定位提交中的潜在问题，或用于教育场景中为学生提供自动化的编程作业纠错与反馈，显著降低人工排查Bug的成本。

数据集最近研究