DCAgent2/swebench_verified_random_100_folders_g1_top8_100k_32b_step2100_20260501_070332

Name: DCAgent2/swebench_verified_random_100_folders_g1_top8_100k_32b_step2100_20260501_070332
Creator: DCAgent2
Published: 2026-05-01 10:56:46
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_g1_top8_100k_32b_step2100_20260501_070332

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 43320420 num_examples: 300 download_size: 27460849 dataset_size: 43320420 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集基于SWE-bench Verified基准中的100个随机选取的软件工程任务构建而成。通过利用g1_top8_100k_32b_step2100模型进行推理与代码生成，每个任务生成了8个候选解决方案，并借助验证器（verifier）对输出的正确性进行自动评估，最终筛选出合格的300条对话样本。每条样本均包含完整的agent执行轨迹、模型名称、提供者信息、任务描述、运行标识符及验证结果，形成结构化的训练数据。

特点

数据集的一个显著特点是其多维度信息标注，每条记录不仅记录了用户与模型的多轮对话内容，还保留了agent角色、模型来源、运行日期、任务ID、试验名称等元数据，便于进行细粒度的性能分析与归因。此外，所有样本均经过自动验证器的严格过滤，确保数据质量可靠，适合用于软件工程领域的大语言模型微调与评估研究。

使用方法

该数据集以HuggingFace Datasets格式存储，通过`load_dataset`函数即可便捷加载。训练集包含300条样本，每条样本的`conversations`字段为多轮对话列表，可直接用于监督式微调。用户亦可利用`result`和`verifier_output`字段评估模型生成代码的正确性，或结合`task`与`agent`字段分析不同任务类型对模型行为的影响，适用于代码生成、智能体对话等下游任务。

背景与挑战

背景概述

在软件工程领域，自动化代码修复与调试是提升开发效率的关键议题，而大型语言模型（LLM）的涌现为此提供了全新范式。该数据集源自2025年基于SWE-bench验证集构建的随机抽样任务，由研究团队针对代码智能体在真实软件仓库中的调试能力进行设计，收录了300个包含完整对话轨迹、模型输出及验证结果的样本。其核心研究问题聚焦于评估LLM在复杂软件工程场景下的代码理解与问题定位能力，为后续开发更鲁棒的自动化调试系统提供了基准数据，推动了代码智能体从理论验证向实际应用的跨越。

当前挑战

数据集面临的核心挑战在于解决软件工程领域代码修复的泛化性与可靠性问题：现有模型常难以在多样化仓库结构与异构编程语言间保持稳定性能，且依赖的验证器（verifier_output）可能无法覆盖所有边界情况，导致假阳/假阴性结论。构建过程中，人工标注多轮智能体交互的准确性与一致性是主要难点，不同标注者对修复策略的认知偏差易引入噪声；同时，从SWE-bench原始任务筛选代表性样本时需平衡问题难度与多样性，统计偏倚可能削弱对模型真实能力的评估效度。

常用场景

经典使用场景

该数据集源于SWE-bench验证环境，聚焦于自动化软件工程任务中的代码修复与补丁生成。经典使用场景是训练和评估智能体在真实软件仓库中定位、理解bug并生成可运行修复补丁的能力。每条样本记录了一次完整的交互会话，包含智能体与环境的对话流、目标任务描述及最终修复结果，研究者常以此为基础构建端到端的代码修复框架，检验模型在复杂工程上下文中的推理与操作能力。

衍生相关工作

围绕此数据集已衍生出多项代表性工作，包括基于思维链推理的智能体策略优化、分层搜索空间修剪技术以及多智能体协作修复框架。例如，有研究借助强化学习对智能体在长尾bug类型上的行为进行调优，另一些工作则将验证器反馈作为奖励信号，构建闭环学习范式。这些成果共同推动了从单次修复到持续学习能力的演进，深化了对智能体在工程级任务中自主决策的理解。

数据集最近研究