SWE-Router/swebench-verified-deepseek-v4-flash

Name: SWE-Router/swebench-verified-deepseek-v4-flash
Creator: SWE-Router
Published: 2026-05-01 08:09:11
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/SWE-Router/swebench-verified-deepseek-v4-flash

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instance_id dtype: string - name: problem_statement dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: model dtype: string - name: resolved dtype: bool - name: instance_cost dtype: float64 - name: api_calls dtype: int64 - name: step_cost_list list: float64 splits: - name: test num_bytes: 43738901 num_examples: 500 - name: test_1 num_bytes: 44077010 num_examples: 500 download_size: 28200147 dataset_size: 87815911 configs: - config_name: default data_files: - split: test path: data/test-* - split: test_1 path: data/test_1-* ---

提供机构：

SWE-Router

搜集汇总

数据集介绍

构建方式

该数据集基于SWE-bench验证集构建，通过筛选DeepSeek-V4模型在Flash推理模式下生成的代码修复方案，并结合自动化验证流程形成。每个样本包含GitHub Issue实例ID、问题描述、模型生成的对话消息序列、模型名称、修复是否成功的布尔标签以及推理成本等元数据，最终汇集为两个各含500条样本的测试子集。

特点

数据集聚焦于评估大语言模型在真实软件工程任务中的代码修复能力，尤其针对DeepSeek-V4模型的轻量推理模式。其特点在于每条数据均附带完整的多轮对话记录与分步骤推理成本，支持对模型修复效率与资源消耗的联合分析，同时通过布尔标签明确区分成功与失败案例，便于开展对比实验。

使用方法

适用于代码修复模型的性能评估与成本效益分析，可直接加载测试子集进行模型生成质量的验证，或利用对话记录进行监督微调。研究人员可依据布尔标签筛选成功样本构建训练数据，也可结合步级成本列表优化推理策略，在资源受限场景下权衡修复成功率与计算开销。

背景与挑战

背景概述

swebench-verified-deepseek-v4-flash数据集是软件工程与人工智能交叉领域的一项新兴资源，由DeepSeek团队在2024年左右构建，旨在评估大语言模型在真实世界软件工程任务中的解决能力。该数据集基于SWE-bench验证集，聚焦于从GitHub问题中提取的500个实例，每个实例包含问题陈述与对应对话历史，核心研究问题在于探究模型能否通过多轮交互自动修复代码缺陷。它弥补了传统代码生成基准在端到端任务上的不足，对推动自动化程序修复技术向实用化发展具有重要参考价值。

当前挑战

该数据集面临的核心领域挑战在于代码修复的复杂性与泛化性，需解决大语言模型在理解长上下文、跨文件依赖及精确语义推理上的瓶颈。构建过程中，挑战体现在数据筛选与标注一致性上，从海量GitHub问题中确定可复现、独立且无歧义的实例颇为繁琐，同时需确保模型输出与人类修复方案的可比性。此外，多轮对话的高昂推理成本与API调用开销，也对大规模评估的可行性构成制约。

常用场景

经典使用场景

在软件工程与人工智能的交叉领域，SWE-bench-verified-deepseek-v4-flash数据集为评估代码修复智能体的能力提供了标准化测试平台。该数据集包含500个来自真实开源仓库的软件工程问题实例，每个实例均附带问题描述及多轮对话历史。研究者通常利用它来检验大语言模型在自主定位缺陷、理解代码上下文并生成补丁方面的表现，成为衡量模型代码级推理与修复能力的经典基准。

解决学术问题

该数据集直面软件仓库级错误修复中缺乏统一评估基准的困境，解决了自动化程序修复研究中的可重复性与可比性难题。通过提供结构化的问题描述与多元交互信息，它使学术工作能够系统性地分析智能体在复杂依赖环境中的决策过程。其贡献在于将代码修复从简单的单点故障修补提升至对完整仓库生态的理解，推动了可泛化修复策略的探索。

衍生相关工作

基于该数据集，衍生出了一系列拓展工作，包括对多轮交互修复流程的优化策略、融合静态分析信息的上下文增强方法，以及跨语言代码修复的迁移学习框架。这些工作进一步探索了模型在长尾缺陷和复杂逻辑错误上的表现，并催生了将检索增强生成与代码知识图谱结合的复合架构，深化了自主软件维护的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集