DCAgent2/swebench_verified_random_100_folders_a2_rl_crosscodeeval_python_v2_20260425_042530

Name: DCAgent2/swebench_verified_random_100_folders_a2_rl_crosscodeeval_python_v2_20260425_042530
Creator: DCAgent2
Published: 2026-04-25 07:52:05
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_a2_rl_crosscodeeval_python_v2_20260425_042530

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 29362458 num_examples: 300 download_size: 13268941 dataset_size: 29362458 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集基于SWE-bench Verified基准构建，通过从随机选取的100个软件工程任务文件夹中，利用强化学习框架（A2-RL）与CrossCodeEval策略在Python环境下生成智能体交互数据。每条样本包含完整的对话历史，由角色（role）与内容（content）字段结构化存储，并记录了智能体类型、所用模型及提供商、任务标识、执行轮次、运行编号等元信息。数据经过验证器（verifier）输出结果校验，最终筛选出300条高质量训练样本，以JSON格式存储于单一训练分割中。

特点

数据集突出特点在于将开源软件工程任务与强化学习驱动的代码生成相结合，提供了细粒度的智能体行为追踪。样本覆盖多轮对话，便于分析由模型引导的调试与问题解决流程。丰富的元数据字段（如agent、model、run_id）支持对跨不同模型提供商的性能对比与一致性研究。此外，验证器输出（verifier_output）直接关联任务结果，为评估模型生成的代码是否真正解决软件缺陷提供了可靠的标注信号。

使用方法

用户可通过HuggingFace Datasets库加载该数据集，指定配置名'default'与分割'train'。数据集中'conversations'字段为对话列表，可用作训练或评估代码生成模型的监督微调数据。结合'task'字段对应的SWE-bench任务，可进行闭环的单元测试验证。建议在研究中使用'agent'与'model'字段进行消融实验，利用'result'与'verifier_output'作为二分类评估指标，量化模型在真实软件工程场景中的修正成功率。

背景与挑战

背景概述

在软件工程与人工智能交叉领域中，自动化代码修复与优化一直是极具挑战性的研究方向。为评估智能体在真实世界编程任务上的表现，研究者构建了SWE-bench系列基准数据集。本数据集（swebench_verified_random_100_folders_a2_rl_crosscodeeval_python_v2_20260425_042530）由2025年4月生成，源自对SWE-bench Verified子集进行随机抽取与结构化重组，专注于Python语言环境下的跨代码评估任务。数据集包含300条训练样本，每条记录涵盖多轮对话、智能体执行轨迹、模型输出及验证结果，旨在系统衡量强化学习驱动的智能体在复杂软件仓库中定位缺陷、生成补丁的能力。该数据集为探究代码智能体的泛化性、鲁棒性及可复现性提供了标准化评估框架，对推动自动化软件维护与可信AI代码助手的发展具有重要参考价值。

当前挑战

该数据集所聚焦的领域核心挑战在于，真实软件仓库中的代码修复绝非简单的模式匹配，而是涉及跨文件依赖理解、动态环境适配及隐含需求推断等复杂认知任务。具体而言，智能体需要同时应对三个层面的困难：其一，问题定位困难——缺陷可能隐藏在数万行代码的任一处，且症状与根因常无显式关联；其二，修复方案多样性带来的评估歧义——同一缺陷可能有多个正确解法，需兼顾修改语义等价性与可维护性；其三，构建过程中对轨迹数据保真度的要求极高——需确保对话历史、智能体动作序列与环境反馈的因果链完整，避免因信息缺失导致的训练偏差。此外，数据采集需平衡样本的代表性与可验证性，保证每个案例均有可靠的自动化验证器输出作为质量锚点。

常用场景

经典使用场景

该数据集源自SWE-bench的精选子集，专注于软件工程领域中基于代码执行的智能体评估与强化学习训练。其经典使用场景在于为代码修复智能体提供高信度的交互式训练样本，每个实例涵盖完整的对话历史、任务描述、模型输出及验证结果，特别适用于训练能够理解自然语言指令并执行跨文件代码修改的对话式编程助手。研究者可通过该数据集构建从问题描述到补丁生成的端到端学习流程，利用其内置的验证器反馈信号优化策略，从而提升智能体在复杂代码库中进行精确编辑的能力。

衍生相关工作

该数据集的诞生直接借鉴并拓展了SWE-bench与CodeEval等先驱工作的评估框架，反向促进了若干经典研究的深化。例如，基于其对话结构，衍生出利用过程奖励模型对代码生成步骤进行逐步评分的工作；而验证器反馈的出现则催生了结合执行轨迹的逆强化学习方法，用于学习更鲁棒的奖励函数。更广泛地，该数据集为旨在通过强化学习优化大语言模型代码能力的算法（如RL4Code）提供了标准化训练集，并启发了针对多语言仓库的‘分治-合并’式代码修复范式的探索，成为连接代码理解与自主编程智能体的关键桥梁。

数据集最近研究