SWE-Router/swebench-verified-gemini-3.1-pro-preview
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/SWE-Router/swebench-verified-gemini-3.1-pro-preview
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: instance_id
dtype: string
- name: problem_statement
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: model
dtype: string
- name: resolved
dtype: bool
- name: instance_cost
dtype: float64
- name: api_calls
dtype: int64
- name: step_cost_list
list: float64
splits:
- name: test
num_bytes: 62625045
num_examples: 500
download_size: 17367374
dataset_size: 62625045
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
---
提供机构:
SWE-Router
搜集汇总
数据集介绍

构建方式
该数据集是swebench-verified基准测试的一个子集,专注于记录Gemini 1.5 Pro模型在代码修复任务中的交互过程。构建方式基于500个来自真实开源项目的软件工程问题实例,每个实例包含问题陈述(problem_statement)以及模型与环境的完整对话历史(messages)。模型通过多轮API调用生成解决方案,数据集记录了每一次的API调用次数(api_calls)、逐步成本列表(step_cost_list)和总成本(instance_cost),并最终根据自动化测试判定是否解决(resolved)。
特点
swebench-verified-gemini-3.1-pro-preview数据集的核心特色在于其细粒度的过程级监控与成本分析。每条数据不仅包含了实例ID(instance_id)和问题描述,还细致追踪了从初始代码修改到最终验证的全链路交互日志。通过逐步成本列表和API调用次数,研究者能够深入评估模型在真实软件工程场景下的推理效率与资源消耗。500个实例全部经过验证,确保了解决状态的可靠性,为比较不同模型或策略提供了可信的基准。
使用方法
该数据集适用于评估大型语言模型在自动程序修复任务中的性能与成本效益。使用者可直接加载'test'分片中的每条记录,通过'resolved'字段快速筛选出成功或失败的案例,进而分析模型的成功率。结合'messages'中的多轮对话,可复现模型的推理路径;利用'instance_cost'和'api_calls'字段,能够计算单位解决成本或调用效率。建议将数据拆分为训练、验证子集,用于微调不同规模的代码修复模型或优化API调度策略。
背景与挑战
背景概述
在软件工程领域,自动化漏洞修复是提升开发效率与代码质量的关键课题。近年来,大型语言模型在代码生成任务中展现了卓越能力,然而其在真实世界软件缺陷修复中的表现尚未得到系统化评估。swebench-verified-gemini-3.1-pro-preview数据集由研究机构基于SWE-bench框架构建,旨在评估Gemini模型在识别与修复实际仓库中软件缺陷的能力。该数据集包含500个经过人工验证的Python代码仓库实例,每个实例均配备问题描述、多轮对话记录及修复结果,为衡量模型在复杂、多步骤代码修复任务中的性能提供了标准化基准。自发布以来,该数据集已成为代码智能领域评估模型泛化性与实用性的重要参考,推动了从学术实验到工业应用的桥梁构建。
当前挑战
该数据集所解决的领域核心挑战在于代码修复任务的高度复杂性:软件缺陷往往涉及跨文件依赖、隐式语义约束及运行时状态,现有模型在准确定位根因与生成可编译的修复方案上仍面临显著瓶颈。在构建过程中,研究者需要从海量真实仓库中筛选高质量实例,确保每个问题具有明确的修复路径与可验证性,同时避免数据泄露与过拟合风险。此外,多轮对话的标注需模拟人类开发者逐步调试的思维链,这对标注一致性与成本控制构成了严峻考验。最终,该数据集通过严格的人工验证与自动化测试流程,为模型性能提供了可靠评估基准,但其500个实例的规模限制了细分场景下的统计显著性,且语言与框架的多样性仍需进一步拓展以增强鲁棒性。
常用场景
经典使用场景
SWE-bench-verified-Gemini-3.1-pro-preview数据集在软件工程与自然语言处理交叉领域展现出独特价值,尤其适用于评估大型语言模型在真实软件仓库中解决复杂编程问题的能力。该数据集精心筛选了500个经过验证的GitHub issue实例,每个实例包含详细的问题描述以及模型生成的多轮对话消息,并提供了是否成功修复的标签。经典使用场景包括:通过给定的问题描述和模型输出,计算修复成功率以衡量模型在代码理解与调试上的表现;分析模型在修复过程中API调用成本与步骤开销,为研究成本敏感的智能编程助手提供基准。
衍生相关工作
该数据集衍生了一系列富有影响力的研究工作。基于其粒度的对话结构与修复标签,研究者开发了成本感知的代码修复框架,通过分析step_cost_list与api_calls字段,提出了预算约束下的最优调用路径规划算法。此外,该数据集的验证机制启发了“可验证编程”新范式,孵化出如Reflexion(反思式调试)等经典工作——模型首先尝试修复,然后利用数据集中的失败案例自我反思并迭代优化。部分工作还将其与静态分析工具结合,通过对比模型补丁与规则检测结果,量化了神经符号方法在真实软件任务中的协同增益。
数据集最近研究
最新研究方向
该数据集聚焦于前沿的自动化软件工程领域,特别是借助大型语言模型(如Gemini 3.1 Pro Preview)进行代码缺陷修复的智能评估。数据集提供了500条经过验证的SWE-bench实例,包含多轮对话轨迹、修复结果以及调用成本等细粒度指标,为研究大模型在真实软件开发场景中的问题解决能力、推理效率与经济性提供了标准化基准。当前,随着大模型驱动的AI编码助手(如GitHub Copilot、Cline)在工业界广泛应用,如何客观衡量其端到端修复复杂Bug的可靠性成为热点。此数据集填补了从单一代码生成到多步骤调试、验证与迭代的评估空白,推动构建更可信的智能软件工程代理系统,对提升软件质量与开发效能具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



