DCAgent2/swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb

Name: DCAgent2/swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb
Creator: DCAgent2
Published: 2026-04-04 03:54:09
License: 暂无描述

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 20508662 num_examples: 236 download_size: 19375848 dataset_size: 20508662 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征字段： - 字段名：对话列表（conversations），数据类型为列表，列表内元素包含如下子字段： - 子字段名：内容（content），数据类型：字符串 - 子字段名：角色（role），数据类型：字符串 - 字段名：AI智能体（AI Agent），数据类型：字符串 - 字段名：模型（model），数据类型：字符串 - 字段名：模型提供商（model_provider），数据类型：字符串 - 字段名：日期（date），数据类型：字符串 - 字段名：任务（task），数据类型：字符串 - 字段名：任务回合（episode），数据类型：字符串 - 字段名：运行ID（run_id），数据类型：字符串 - 字段名：试验名称（trial_name），数据类型：字符串 - 字段名：结果（result），数据类型：字符串 - 字段名：验证器输出（verifier_output），数据类型：字符串数据集划分： - 划分名称：训练集（train），字节占用量：20508662，样本总数：236 下载总大小：19375848 数据集总大小：20508662 配置项： - 配置名称：默认配置（default），对应数据文件： - 划分：训练集（train），数据路径：data/train-*

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化代码修复任务对模型性能评估提出了更高要求。该数据集基于SWE-bench框架，通过随机抽取100个代码仓库文件夹，并利用CoderForge平台在特定配置下生成。数据采集过程涉及多轮对话模拟，记录了智能体与模型在代码问题解决中的交互轨迹，确保了任务场景的真实性与多样性。每个样本均包含完整的对话历史、执行结果及验证输出，构建了一个结构化的评估基准。

特点

该数据集以细粒度的代码修复任务为核心，其突出特点在于每个样本均附带验证输出，为模型性能提供了可量化的评估依据。数据覆盖了多种代码仓库与问题类型，通过对话形式捕捉了问题解决的全过程，包括错误定位、修复尝试及最终结果。字段设计全面，涵盖了智能体类型、模型提供商、执行日期等元信息，支持多维度的分析与对比研究。

使用方法

研究人员可将该数据集应用于代码生成与修复模型的评估与训练。使用时应加载训练分割，利用对话历史模拟智能体与模型的交互，重点关注结果字段以判断任务成败。验证输出可用于自动评分或错误分析，而元信息如任务标识和运行ID则支持实验的可重复性与细粒度比较。该数据集适用于基准测试、模型微调及自动化软件工程方法的研究。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化代码修复与任务执行已成为前沿研究方向。数据集'swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb'应运而生，其构建旨在评估大型语言模型在真实软件开发环境中的实际效能。该数据集由CoderForge等研究团队于2024年创建，核心聚焦于通过对话交互形式，测试模型在代码生成、调试与验证任务中的综合表现，为提升智能编程助手的可靠性与泛化能力提供了关键基准。

当前挑战

该数据集致力于解决软件工程中自动化代码修复与任务执行的挑战，其难点在于如何精准模拟复杂多变的开发场景，并确保模型输出在功能与逻辑上的正确性。构建过程中，研究人员需克服数据采集的多样性难题，包括从开源项目中提取真实缺陷案例、设计涵盖多编程语言与框架的对话任务，以及建立严格的验证机制来保证结果的可信度与可复现性。

常用场景

经典使用场景

在软件工程与代码生成领域，该数据集通过模拟真实开发环境中的对话交互，为评估大型语言模型在代码修复与任务执行方面的能力提供了基准。其经典使用场景聚焦于自动化代码调试与优化，研究者利用数据集中的对话序列，训练模型理解复杂编程问题，并生成准确的代码修改方案，从而推动智能编程助手的发展。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，包括基于对话历史的代码修复模型优化、多智能体协作编程框架的开发，以及针对软件测试自动化的强化学习策略。这些工作不仅扩展了数据集的用途，还推动了代码生成与软件工程交叉领域的理论创新，为后续更复杂的智能编程系统提供了方法论参考。

数据集最近研究