five

DCAgent2/swebench_verified_Qwen3_5_27B_20260424_064913

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_Qwen3_5_27B_20260424_064913
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1500个示例的训练集,每个示例代表一个对话或任务执行记录,具有结构化字段如对话内容(包含角色和文本)、代理、模型、模型提供商、日期、任务、集数、运行ID、试验名称、结果和验证器输出。数据集可能用于自然语言处理或人工智能代理的评估,但具体描述未在README中提供。

This dataset consists of a training set with 1500 examples, each representing a conversation or task execution record with structured fields including conversations (with content and role), agent, model, model provider, date, task, episode, run ID, trial name, result, and verifier output. The dataset may be used for natural language processing or AI agent evaluation, but no specific description is provided in the README.
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对通义千问Qwen3.5-27B模型在SWE-bench已验证任务上的交互轨迹进行系统性采集与结构化处理。每条记录均包含完整的多轮对话序列,分别以用户与助手的角色交替呈现,同时附有模型标识、运行参数、时间戳及任务描述等元信息。数据通过将自动化agent的试运行过程与规范化验证器的输出结果相结合而构建,确保每一轮交互的上下文与最终评价指标均可追溯。最终形成了包含1500个样本的训练集,覆盖多种编程任务场景,为后续模型微调与评估提供了可靠基础。
特点
该数据集的核心特色在于其多维度、结构化的信息整合能力。每条数据不仅保留了对话的原始内容与角色分工,还记录了模型版本、提供商、任务类型与运行批次等关键元数据,使得研究者能够按需筛选或分层分析。特别地,数据集中包含了‘result’与‘verifier_output’字段,前者标识任务解决与否的最终结果,后者提供验证器的详细评判依据,为评估模型性能与挖掘失败模式提供了量化支撑。这种设计兼顾了宏观统计与微观归因,显著增强了数据集在复现实验与对比研究中的实用价值。
使用方法
该数据集可直接用于监督微调与偏好对齐任务,尤其适合基于对话序列的编程助手模型训练。研究者可按‘role’字段提取特定轮次的对话内容,或依据‘result’与‘verifier_output’字段筛选成功/失败案例构建对比学习数据。数据以标准JSONLines格式存储,支持通过HuggingFace Datasets库快速加载,并提供了统一的‘train’划分。建议在使用时结合元数据(如‘model’与‘task’)进行分层采样或交叉验证,以提升微调效果的泛化能力。
背景与挑战
背景概述
该数据集名为swebench_verified_Qwen3_5_27B_20260424_064913,由研究机构在2025年4月创建,聚焦于评估和提升大型语言模型在软件工程任务中的自主能力。核心研究问题在于验证Qwen3系列模型(特别是5B和27B参数版本)在自动化代码修改、调试和任务执行中的表现,并通过SWE-bench验证框架确保结果的可靠性。数据集包含1500条对话实例,覆盖模型与环境的交互过程、任务描述及执行结果,为理解模型在真实软件工程场景中的推理与决策提供了标准化基准。该工作对推动代码智能体在持续集成、缺陷修复等领域的应用具有重要参考价值,进一步拓展了大型语言模型在专业化任务中的评估体系。
当前挑战
数据集面临的首要挑战是解决软件工程任务的复杂性,例如自动修复代码缺陷、理解多文件依赖关系以及适应动态变化的开发环境,这些任务要求模型具备深度代码理解与逻辑推理能力。在构建过程中,挑战在于设计有效的交互协议以记录模型与环境的完整对话轨迹,同时确保任务验证的公平性与准确性,例如通过SWE-bench的严格评估流程避免过拟合。此外,不同模型版本(如5B与27B)在性能上的差异需要精心设计实验以分离模型规模与能力边界的影响,而数据集规模(1500条)的有限性也限制了泛化能力的全面评估。
常用场景
经典使用场景
在软件工程与人工智能交叉研究的浪潮中,SWE-bench_Verified系列数据集应运而生,旨在衡量大型语言模型解决真实世界软件工程任务的能力。该数据集特别适用于训练和评估基于对话的智能体在自动化代码修复、代码生成与调试等场景中的表现。每一条数据都包含完整的对话历史、任务描述以及执行结果,使得研究人员能够深入分析模型在多轮交互中理解软件问题、定位错误并生成正确补丁的全过程。这种设计使其成为研究代码智能体推理能力与实用性的理想基准。
实际应用
在工业界,该数据集直接服务于自动化软件维护与持续集成场景。例如,开发团队可利用基于此数据训练的智能体自动分析缺陷报告、生成补丁并运行回归测试,极大缩短了人工排查与修复的时间成本。企业级代码审查平台可将其作为核心组件,实时对提交代码进行潜在错误预警与修复建议。此外,该数据集还支撑了智能编程助手的迭代升级,使助手不仅能回答编程问题,更能主动发现并修正已有代码逻辑缺陷,从而提升软件交付质量。
衍生相关工作
该数据集的诞生催生了多项具有影响力的后续研究。一方面,研究者基于其对话结构开发了多阶段强化学习框架,通过模仿专家修复轨迹来提升智能体的行为一致性。另一方面,数据集中丰富的失败案例被用于构建负样本增强机制,有效减少了模型生成无效补丁的倾向。此外,数据集中记录的智能体工具调用序列激发了关于工具使用可解释性的研究,衍生出能够自动标注中间推理步骤的元学习器,为提升代码修复的透明度和可信度奠定了方法基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作