DCAgent2/swebench_verified_random_100_folders_coderforge_3160__Qwen3_8B_20260401_170655-traces
收藏Hugging Face2026-04-04 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_coderforge_3160__Qwen3_8B_20260401_170655-traces
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 32145709
num_examples: 283
download_size: 24628238
dataset_size: 32145709
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
在软件工程领域,自动化代码修复与测试验证是提升开发效率的关键环节。swebench_verified_random_100_folders_coderforge_3160__Qwen3_8B_20260401_170655-traces数据集通过系统化的实验流程构建而成,其核心基于SWE-bench框架,从开源项目中随机选取100个代码仓库作为任务来源。每个任务实例记录了智能代理(如Qwen3-8B模型)在特定代码修复场景下的完整交互轨迹,包括对话历史、执行结果及验证输出,确保了数据覆盖的多样性与真实性。构建过程中采用了严格的验证机制,确保每条轨迹均对应实际代码变更与测试通过状态,为研究提供了可靠的基础。
特点
该数据集在代码智能与自动化软件工程研究中展现出显著特色。其结构设计精细,不仅包含多轮对话形式的交互内容,还整合了代理类型、模型提供商、任务标识及执行结果等元数据,形成了多维度的分析视角。数据集以283个实例覆盖了多样化的代码修复场景,每个实例均附带验证输出,便于评估代理行为的有效性与一致性。时间戳与运行标识的嵌入支持了实验可复现性分析,而统一的JSON格式则简化了数据处理流程,为模型训练与评估提供了结构化且信息丰富的资源。
使用方法
针对代码生成与修复模型的研究,该数据集可直接应用于训练与评估环节。使用者可通过加载标准数据分割(如train分割)访问对话轨迹与元数据,利用conversations字段分析模型与环境的交互模式,结合result和verifier_output字段量化修复成功率。在实践层面,数据集支持代理行为分析、模型比较研究以及自动化测试验证流程的优化。通过解析任务与运行标识,研究者能够追溯实验上下文,进行细粒度的性能评估或构建基准测试,推动软件工程智能化的方法创新。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,自动化代码修复与任务执行已成为提升开发效率的关键研究方向。swebench_verified_random_100_folders_coderforge_3160__Qwen3_8B_20260401_170655-traces数据集应运而生,其构建基于SWE-bench框架,由CoderForge等研究团队于2024年创建,旨在评估大型语言模型在真实软件仓库中执行复杂编程任务的能力。该数据集聚焦于代码生成与验证的核心问题,通过记录模型与环境的交互轨迹,为研究智能体在动态、结构化代码库中的行为提供了宝贵资源,对推动自动化软件开发工具的发展具有显著影响力。
当前挑战
该数据集致力于解决智能代码助手在真实世界软件工程环境中的适应性与可靠性挑战,其核心问题在于如何让模型准确理解并执行涉及多文件、依赖管理和版本控制的编程任务。构建过程中的挑战尤为突出,包括确保任务样本在真实仓库中的随机性与代表性,设计有效的验证机制以自动判断任务完成正确性,以及处理大规模代码库交互产生的复杂轨迹数据,这些因素共同增加了数据收集、标注与质量控制的难度。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,该数据集为评估大型语言模型在代码生成与修复任务中的性能提供了基准。其经典使用场景聚焦于自动化软件测试与调试,通过模拟真实世界编程环境中的问题解决轨迹,研究者能够系统分析模型在理解代码库、执行修改指令及验证解决方案方面的能力。这一过程不仅检验了模型的推理准确性,还揭示了其在复杂任务中的泛化表现,为后续模型优化奠定了实证基础。
解决学术问题
该数据集有效应对了当前代码智能研究中模型评估缺乏标准化、可复现性不足的挑战。它通过结构化记录模型与环境的交互轨迹,解决了以往研究中任务定义模糊、结果难以量化比较的问题。其意义在于构建了一个透明、可追溯的评估框架,促进了代码生成领域方法论的规范化,推动了从黑箱测试向细粒度性能分析的转变,对提升学术研究的严谨性与可比性产生了深远影响。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于轨迹分析的模型能力诊断框架与迭代优化策略。研究者利用其细粒度交互数据,开发了针对代码理解、规划执行等子任务的评估指标,并提出了增强模型调试能力的训练方法。这些工作进一步拓展了代码智能的研究边界,催生了如自适应测试生成、多轮交互修复等创新方向,形成了从评估到改进的良性研究循环。
以上内容由遇见数据集搜集并总结生成



