DCAgent2/swebench_verified_Qwen3_5_9B_20260424_061825
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_Qwen3_5_9B_20260424_061825
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 228806081
num_examples: 1498
download_size: 167567212
dataset_size: 228806081
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集源于SWE-bench验证集,由通义千问Qwen3-5-9B大语言模型在自动化软件工程任务中生成的对话、动作与结果记录构成。构建过程涵盖从种子问题提取、模型交互日志采集到多维度结构化输出的完整流程,最终将每一次独立任务交互片段封装为Episode,并辅以任务描述、运行标识与验证器反馈等元信息,形成可用于评测与微调的标准化数据格式。
特点
数据集以1498条高质量样本构成单一训练拆分,每条记录核心为多轮对话序列,完整再现模型从接收任务到生成补全的推理轨迹。除代理行为与模型标识外,特别引入验证器输出字段,提供了执行结果的客观反馈,为后续基于强化学习或偏好对齐的方法研究奠定了坚实基础。数据规模适中且结构清晰,兼顾了研究探索的效率与深度。
使用方法
本数据集可直接用于训练对话型代码生成模型,通过加载对话字段中的角色与内容序列构建监督式微调样本。研究者亦可提取任务与结果字段进行智能体行为分析,或利用验证器输出作为奖励信号开展偏好学习。数据以标准表格格式存储,兼容HuggingFace Datasets等主流框架,便于快速集成至现有训练与评估流水线。
背景与挑战
背景概述
该数据集名为swebench_verified_Qwen3_5_9B_20260424_061825,由研究人员于2026年4月创建,核心研究机构涉及通义千问模型团队与SWE-bench验证框架的开发者。该数据集聚焦于代码智能体在真实软件工程任务中的表现评估,记录了Qwen3-5-9B模型在SWE-bench验证集上的完整交互过程。SWE-bench作为当前软件工程领域中评估大语言模型代码修复与生成能力的权威基准,其验证子集(verified)通过严格标注确保了任务质量。该数据集通过收录1498条训练样本,包含多轮对话、模型输出、验证器结果等结构化信息,为研究代码智能体的行为模式、策略选择与性能边界提供了宝贵的细粒度资源,对推动大模型在自动化编程、缺陷修复等方向的研究具有重要参考价值。
当前挑战
该数据集面临的挑战可分为两个层面。在领域问题层面,其主要攻克的是大语言模型在真实软件环境中的代码生成与修复能力评估难题,传统静态基准无法捕捉动态执行环境中的依赖冲突、跨文件修改等复杂场景,而SWE-bench通过集成测试验证的方式显著提升了评估的真实性。在构建过程中,挑战包括如何筛选出高质量且具有代表性软件工程任务,确保每个任务都有明确的通过/失败判断标准;此外,多轮对话数据的采集需要协调模型推理、环境执行与结果验证的异步流程,避免因超时、资源竞争或验证器误判导致的数据噪声。最后,数据规模与多样性之间的平衡也是一大难点,1498个样本虽具参考性,但覆盖的编程语言、错误类型和项目领域仍有限,可能影响模型的泛化能力分析。
常用场景
经典使用场景
在人工智能与软件工程交叉领域,swebench_verified_Qwen3_5_9B_20260424_061825数据集以其独特的对话式任务结构,成为评估和微调大语言模型在代码生成与软件调试能力上的经典基准。研究者通过该数据集中包含的完整agent交互轨迹、模型输出及验证结果,深入探究模型在真实软件工程场景下的推理与执行能力,尤其是在多轮对话中理解用户需求、定位代码缺陷并自动生成修复方案的表现。该数据集广泛用于对比不同规模模型在复杂编程任务上的泛化性能,以及测试模型在面对真实bug时的鲁棒性与准确性。
解决学术问题
该数据集直击软件工程自动化研究中的核心难题——如何构建能够精准理解并修复实际代码错误的智能体系统。学术社区长期受困于缺乏高质量、带验证标签的人机交互数据,导致模型在脱离实验室环境后性能骤降。swebench_verified_Qwen3_5_9B通过提供经严格验证的对话流水线和结果标注,使得研究者得以量化模型在自然语言与代码混合场景下的错误定位与修复效率。其意义在于填补了从单纯代码生成迈向交互式软件维护的数据空白,推动了程序修复、持续集成和测试自动化等方向的实证研究。
衍生相关工作
围绕该数据集,研究社区已衍生出一系列开创性工作。基于其多轮对话结构,学者提出了面向软件任务的强化学习框架,利用验证器反馈优化模型长期推理策略;此外,有团队通过提取数据集中的故障模式,构建了跨项目缺陷预测基准,推动了代码脆弱性分析的迁移学习研究。更值得关注的是,该数据集启发了人机协同编码范式的革新——工作中引入了多智能体辩论机制,利用不同模型对同一问题的修复方案进行交叉验证,显著提升了自动补丁的正确率,成为后续代码智能体可靠性研究的基石。
以上内容由遇见数据集搜集并总结生成



