SWE-Router/swebench-verified-claude-opus-4.7

Name: SWE-Router/swebench-verified-claude-opus-4.7
Creator: SWE-Router
Published: 2026-04-30 19:45:47
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/SWE-Router/swebench-verified-claude-opus-4.7

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instance_id dtype: string - name: problem_statement dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: model dtype: string - name: resolved dtype: bool - name: instance_cost dtype: float64 - name: api_calls dtype: int64 - name: step_cost_list list: float64 splits: - name: test num_bytes: 19405549 num_examples: 500 download_size: 6824406 dataset_size: 19405549 configs: - config_name: default data_files: - split: test path: data/test-* ---

提供机构：

SWE-Router

搜集汇总

数据集介绍

构建方式

该数据集源自SWE-bench验证集的精选子集，由Claude Opus 4.7模型对500个真实世界软件工程问题生成修复方案。每个实例包含问题陈述、多轮对话消息日志、模型标识、是否成功修复的布尔标记、API调用成本及步骤级成本列表。数据以parquet格式分片存储，分为test与test_1两个子集，每集各含500条记录，便于分布式加载与增量处理。

特点

数据集的核心价值在于提供了高保真的开源软件修复追踪记录，涵盖从问题理解到代码修改的完整推理链。每条数据附带细粒度的成本指标（instance_cost与step_cost_list），支持对模型经济性与修复效率的量化分析。通过resolved字段可以直接筛选成功/失败案例，便于进行对比实验或失败模式挖掘。消息序列保留了完整的多轮交互语境，为研究模型在复杂工程场景下的逐步推理能力提供了结构化素材。

使用方法

推荐通过HuggingFace Datasets库加载，指定split参数为'test'或'test_1'。实例ID（instance_id）可用于跨数据集关联原始SWE-bench问题定义。研究人员可利用messages字段构建对话式提示模板，结合resolved标签进行监督微调或强化学习。成本字段可作为奖励模型设计的参考信号，用于优化API调用策略。建议将problem_statement与消息历史拼接后输入代码生成模型，以验证模型在真实软件仓库上的修复合能力。

背景与挑战

背景概述

swebench-verified-claude-opus-4.7数据集诞生于自动代码修复与软件工程智能化的前沿探索浪潮中。该数据集由SWE-bench团队创建，聚焦于评估大语言模型在真实软件工程场景下解决GitHub Issue的能力，核心研究问题是如何验证和衡量模型在复杂代码仓库中执行故障定位、补丁生成与验证的端到端性能。通过收录500个经过人工验证的实例，该数据集为软件工程领域提供了首个高质量、可复现的基准测试集，推动了代码智能体从理论验证向实际部署的跨越，对自动化调试与持续集成等方向具有深远影响。

当前挑战

该数据集面临的核心挑战在于所解决的领域性问题——自动代码修复的复杂性远非传统代码补全可比，模型需理解跨文件的上下文依赖、项目构建规范及隐式业务逻辑，这要求模型具备超越语法层面的结构化推理能力。构建过程中，团队需从海量Issue-提交对中筛选出明确可复现的缺陷，并排除人为标注偏差及环境依赖性，同时确保补丁验证的自动化流程能抵御误判风险。此外，500个样本的规模虽精炼却易受稀疏性影响，模型在少数典型场景上的过拟合可能误导泛化性评估，平衡真实性与全面性仍是长期挑战。

常用场景

经典使用场景

SWE-bench Verified Claude Opus 4.7数据集专为评估和提升大语言模型在软件工程自动化任务中的能力而设计。其经典使用场景聚焦于代码缺陷修复（bug fixing）这一核心挑战，即给定一个具有实际问题的开源代码仓库（如Python库）以及对应的问题描述，模型需自动生成能够通过所有单元测试的补丁。该数据集包含500个经过人工验证的高质量实例，每个实例均附带结构化的对话历史（messages）与修复结果标签（resolved），为研究者提供了一个标准化的基准测试平台，用以衡量模型在端到端软件维护任务中的表现。

实际应用

在实际工业开发环境中，该数据集的应用潜力尤为突出。基于其构建的模型可直接部署于持续集成（CI）流水线中，自动识别及修复代码仓库中的意外崩溃、逻辑漏洞或性能退化问题，大幅减轻开发者的手动调试负担。此外，它可赋能智能代码审查工具，在提交阶段即对补丁质量进行预判与建议。对于大型软件系统的维护团队，借助在SWE-bench Verified上训练的模型，能够快速响应开源社区中积压的bug报告，缩短从问题发现到版本修复的迭代周期，从而提升整体软件产品的稳健性与交付效率。

衍生相关工作

SWE-bench Verified衍生出了一系列具有深远影响的经典研究工作。例如，研究人员基于该数据集开发了专门的检索-修复流水线（如SWE-Agent系列），探索了通过对话式交互、分步推理与外部代码库索引来提升修复准确率的方法。同时，该数据集被广泛用于对比不同规模与架构的大语言模型（如GPT-4、Llama、Claude系列）在软件工程任务中的性能差异，催生了关于“代码智能”与“推理能力”之间关系的实证分析。此外，围绕数据集的评估框架还启发了多模态代码理解、自监督学习在补丁验证中的应用等前沿方向，成为推动AI辅助软件工程走向成熟的关键基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集