DCAgent2/swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb
收藏Hugging Face2026-04-04 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 20508662
num_examples: 236
download_size: 19375848
dataset_size: 20508662
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 字段名:对话列表(conversations),数据类型为列表,列表内元素包含如下子字段:
- 子字段名:内容(content),数据类型:字符串
- 子字段名:角色(role),数据类型:字符串
- 字段名:AI智能体(AI Agent),数据类型:字符串
- 字段名:模型(model),数据类型:字符串
- 字段名:模型提供商(model_provider),数据类型:字符串
- 字段名:日期(date),数据类型:字符串
- 字段名:任务(task),数据类型:字符串
- 字段名:任务回合(episode),数据类型:字符串
- 字段名:运行ID(run_id),数据类型:字符串
- 字段名:试验名称(trial_name),数据类型:字符串
- 字段名:结果(result),数据类型:字符串
- 字段名:验证器输出(verifier_output),数据类型:字符串
数据集划分:
- 划分名称:训练集(train),字节占用量:20508662,样本总数:236
下载总大小:19375848
数据集总大小:20508662
配置项:
- 配置名称:默认配置(default),对应数据文件:
- 划分:训练集(train),数据路径:data/train-*
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
在软件工程领域,自动化代码修复任务对模型性能评估提出了更高要求。该数据集基于SWE-bench框架,通过随机抽取100个代码仓库文件夹,并利用CoderForge平台在特定配置下生成。数据采集过程涉及多轮对话模拟,记录了智能体与模型在代码问题解决中的交互轨迹,确保了任务场景的真实性与多样性。每个样本均包含完整的对话历史、执行结果及验证输出,构建了一个结构化的评估基准。
特点
该数据集以细粒度的代码修复任务为核心,其突出特点在于每个样本均附带验证输出,为模型性能提供了可量化的评估依据。数据覆盖了多种代码仓库与问题类型,通过对话形式捕捉了问题解决的全过程,包括错误定位、修复尝试及最终结果。字段设计全面,涵盖了智能体类型、模型提供商、执行日期等元信息,支持多维度的分析与对比研究。
使用方法
研究人员可将该数据集应用于代码生成与修复模型的评估与训练。使用时应加载训练分割,利用对话历史模拟智能体与模型的交互,重点关注结果字段以判断任务成败。验证输出可用于自动评分或错误分析,而元信息如任务标识和运行ID则支持实验的可重复性与细粒度比较。该数据集适用于基准测试、模型微调及自动化软件工程方法的研究。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,自动化代码修复与任务执行已成为前沿研究方向。数据集'swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb'应运而生,其构建旨在评估大型语言模型在真实软件开发环境中的实际效能。该数据集由CoderForge等研究团队于2024年创建,核心聚焦于通过对话交互形式,测试模型在代码生成、调试与验证任务中的综合表现,为提升智能编程助手的可靠性与泛化能力提供了关键基准。
当前挑战
该数据集致力于解决软件工程中自动化代码修复与任务执行的挑战,其难点在于如何精准模拟复杂多变的开发场景,并确保模型输出在功能与逻辑上的正确性。构建过程中,研究人员需克服数据采集的多样性难题,包括从开源项目中提取真实缺陷案例、设计涵盖多编程语言与框架的对话任务,以及建立严格的验证机制来保证结果的可信度与可复现性。
常用场景
经典使用场景
在软件工程与代码生成领域,该数据集通过模拟真实开发环境中的对话交互,为评估大型语言模型在代码修复与任务执行方面的能力提供了基准。其经典使用场景聚焦于自动化代码调试与优化,研究者利用数据集中的对话序列,训练模型理解复杂编程问题,并生成准确的代码修改方案,从而推动智能编程助手的发展。
衍生相关工作
围绕该数据集,衍生出多项经典研究工作,包括基于对话历史的代码修复模型优化、多智能体协作编程框架的开发,以及针对软件测试自动化的强化学习策略。这些工作不仅扩展了数据集的用途,还推动了代码生成与软件工程交叉领域的理论创新,为后续更复杂的智能编程系统提供了方法论参考。
数据集最近研究
最新研究方向
在软件工程与代码生成领域,swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb数据集作为评估大型语言模型代码修复能力的关键资源,正推动前沿研究聚焦于自动化软件维护与智能调试技术。该数据集通过模拟真实开发环境中的代码问题与验证流程,促进了模型在复杂任务中的泛化性能分析,尤其在结合强化学习与多智能体协作框架方面,探索如何提升代码修复的准确性与效率。相关研究热点包括利用此类数据优化开源项目的持续集成流程,以及应对新兴编程范式下的安全漏洞检测挑战,其影响深远,为构建更可靠、自适应的AI辅助开发工具奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



