DCAgent2/swebench_verified_random_100_folders_a2_rl_expert_20260430_034123

Name: DCAgent2/swebench_verified_random_100_folders_a2_rl_expert_20260430_034123
Creator: DCAgent2
Published: 2026-04-30 06:30:55
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_a2_rl_expert_20260430_034123

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 28880060 num_examples: 300 download_size: 13563084 dataset_size: 28880060 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集基于SWE-bench Verified基准测试构建，从中随机选取100个真实软件工程任务，并借助强化学习框架，整合来自专家智能体的交互轨迹。每个样本记录了智能体在解决代码仓库问题时的完整对话、任务细节及最终结果，通过自动化验证器对解决方案的正确性进行严格判定，最终筛选出300条高质量的训练实例。

使用方法

数据集已预划分为训练集，格式兼容主流深度学习框架，可通过HuggingFace Datasets库直接加载使用。用户可根据“agent”、“model”等字段筛选特定来源的数据，或利用“conversations”字段提取对话历史以训练代码生成与调试模型。建议结合“result”与“verifier_output”字段作为监督信号，优化智能体在复杂软件工程任务中的决策策略。

背景与挑战

背景概述

该数据集名为swebench_verified_random_100_folders_a2_rl_expert_20260430_034123，源自SWE-bench系列，旨在评估和提升语言模型在软件工程任务中的自动化能力。创建于2026年，由专注于代码生成与强化学习的研究团队构建，核心研究问题在于探索如何通过强化学习专家策略优化模型在复杂软件仓库中的问题解决效率。该数据集包含300个从已验证任务中随机抽取的样本，涵盖多轮对话记录、模型输出及验证结果，对于推动AI辅助编程、自动调试及智能体在真实开发环境中的应用具有重要影响力，为后续研究提供了标准化的测试基准。

当前挑战

数据集所解决的领域挑战在于软件工程任务的自动化，尤其是模型在理解大型代码库、定位缺陷并生成修复代码方面的困难，传统评估方法常因任务过于简化而无法反映真实场景。构建过程中面临的主要挑战包括：确保任务来自经过严格验证的SWE-bench实例，避免数据噪声；随机抽样以维护代表性，同时平衡数据规模与多样性；记录完整的推理轨迹与验证结果，以支持强化学习策略的有效训练与评估。这些挑战要求数据收集与标注流程具备高度可靠性，并能够适应不断演化的代码环境。

常用场景

经典使用场景

在软件工程与人工智能的交叉领域中，swebench_verified_random_100_folders_a2_rl_expert_20260430_034123数据集为评估和训练代码生成与修复代理提供了坚实的基准平台。该数据集精心收集了来自真实软件仓库的随机100个文件夹内的任务，包含丰富的对话历史、代理行为、模型信息及验证结果。经典使用场景聚焦于训练强化学习专家模型，使其能够理解自然语言描述的问题、浏览代码库、定位bug并生成有效的补丁。研究者常利用此数据集进行多轮交互式代码修复实验，通过对比代理在不同模型和策略下的表现，探索更优的自动化调试路径。

解决学术问题

该数据集有效解决了代码自动化修复领域长期存在的数据稀缺和真实场景模拟不足的问题。它为研究人员提供了一个规模适中但包含复杂代码结构、多样化bug类型和完整验证链的标注数据集，使得对代理推理能力、代码理解深度及纠错策略的系统性评估成为可能。通过精确记录每轮对话和最终验证结果，数据集支撑了对于强化学习在代码修复中泛化性与稳定性间平衡关系的深入分析。其意义在于推动了从静态代码分析到动态交互式修复的范式转变，为建立更鲁棒的软件维护自动化理论提供了实证基础。

实际应用

在实际部署中，该数据集衍生的模型可广泛应用于持续集成系统中的自动bug修复、开发者日常编码中的实时辅助调试以及开源社区的PR审查支持。例如，大型软件企业可基于此数据集训练内嵌于IDE的智能代理，当开发者提交代码片段时，代理能自动扫描潜在缺陷并生成修复建议。此外，数据集验证结果的严格记录确保了模型在生产环境下具备高可靠性，能够服务于金融、医疗等对代码质量要求严苛的领域，显著降低人工代码审查的成本与漏检率。

数据集最近研究