DCAgent2/swebench_verified_random_100_folders_a1_code_contests_20260328_071938

Name: DCAgent2/swebench_verified_random_100_folders_a1_code_contests_20260328_071938
Creator: DCAgent2
Published: 2026-03-28 13:36:04
License: 暂无描述

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_a1_code_contests_20260328_071938

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 53340307 num_examples: 300 download_size: 37445050 dataset_size: 53340307 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化代码修复与测试验证已成为提升开发效率的关键研究方向。该数据集基于SWE-bench框架构建，通过从Code Contests平台筛选出100个经过验证的随机文件夹，每个文件夹包含特定编程任务。数据收集过程模拟了真实开发环境中的代码迭代与调试场景，记录了智能体与模型在解决编程问题时的完整对话历史。构建过程中严格遵循时间戳记录与任务划分原则，确保每个数据点均对应独立的编程尝试与验证结果，从而形成结构化的多轮交互序列。

特点

该数据集的核心特征在于其高度结构化的多轮对话格式，每一条记录均包含角色明确的对话内容、执行代理信息以及模型提供方等元数据。数据集中涵盖了多样化的编程任务与验证输出，能够反映不同智能体在代码生成与修复过程中的行为模式。特别值得注意的是，数据集不仅记录了任务执行结果，还包含了验证器的详细输出，为分析代码正确性与修复策略提供了多维度的评估依据。这种设计使得数据集能够支持对自动化编程工具的性能进行深入比较与分析。

使用方法

研究人员可利用该数据集进行代码生成模型的训练与评估，尤其适用于研究智能体在复杂编程任务中的决策过程。使用时应首先加载数据集的对话序列与元数据字段，重点关注任务描述、执行结果及验证输出之间的关联。典型应用场景包括构建代码修复模型的基准测试，或分析不同模型在特定编程问题上的表现差异。数据中的时间戳与任务标识符支持按时间线或任务类型进行切片分析，从而揭示编程智能体的行为演化规律。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化代码生成与修复已成为推动软件开发效率的关键研究方向。swebench_verified_random_100_folders_a1_code_contests_20260328_071938数据集于2026年3月发布，由相关研究机构构建，旨在评估大型语言模型在解决实际编程问题中的能力。该数据集聚焦于代码竞赛场景，通过结构化对话记录模型与环境的交互过程，为核心研究问题——即智能体在复杂、动态的代码任务中的泛化与适应性能——提供了实证基础。其构建不仅深化了代码智能体的评估框架，也为软件自动化测试与维护领域注入了新的方法论启示。

当前挑战

该数据集致力于应对代码生成与修复任务中的核心挑战，即模型在多样化、真实世界编程问题中的准确性与鲁棒性。具体而言，挑战体现在模型需理解自然语言描述、生成符合语法与逻辑的代码，并在动态环境中验证输出正确性。构建过程中，数据采集需平衡任务复杂度与代表性，确保覆盖不同难度与领域的代码问题；同时，标注与验证环节要求高精度，以消除噪声并保证结果可靠性，这对数据一致性提出了严格要求。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，该数据集作为评估智能代码生成与修复系统性能的基准工具，其经典使用场景聚焦于自动化软件测试与调试任务。研究者通过模拟真实编程环境中的错误修复流程，利用数据集中的对话交互记录，训练或测试模型在理解代码缺陷、生成补丁方案方面的能力。这种场景不仅复现了开发者在日常工作中面临的调试挑战，还为模型提供了结构化的问题解决框架，从而推动智能编程助手在代码质量提升方面的技术进步。

解决学术问题

该数据集有效应对了智能代码生成研究中缺乏标准化评估基准的学术困境。它通过提供包含验证结果的代码修改实例，解决了模型输出可靠性难以量化的问题，使研究者能够系统性地分析模型在代码修复任务中的准确性与泛化能力。其意义在于建立了软件错误修复领域的可重复实验标准，促进了学术界对代码语义理解、程序合成等核心问题的深入探索，并为自动化软件维护工具的发展奠定了数据基础。

衍生相关工作

围绕该数据集衍生的经典研究工作主要集中在增强型代码修复模型的构建与评估框架创新上。例如，部分研究利用其对话结构开发了多轮交互式代码调试代理，通过模拟开发者与工具的渐进式对话提升修复精度；另一些工作则基于数据集的验证结果设计了分层评估指标，区分模型在语法修正与逻辑重构等不同难度任务上的表现。这些成果不仅扩展了自动化软件工程的应用边界，也为后续更复杂的代码推理任务提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集