SWE-Router/swebench-verified-gpt-5-mini
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/SWE-Router/swebench-verified-gpt-5-mini
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于评估或分析AI对话系统性能的数据集,包含500个测试示例。每个示例包括实例ID、问题陈述、消息列表(其中每条消息有内容和角色字段,可能表示用户与AI的对话历史)、模型名称、解决状态(布尔值表示问题是否被解决)、实例成本(浮点数)、API调用次数(整数)以及步骤成本列表(浮点数列表)。数据集设计用于成本效益分析、模型比较或对话系统优化任务,侧重于记录对话过程中的资源消耗和结果指标。数据以test拆分形式提供,总大小约为35.4MB,下载大小约为13.7MB。
This dataset is designed for evaluating or analyzing the performance of AI dialogue systems, containing 500 test examples. Each example includes an instance ID, problem statement, a list of messages (with content and role fields, likely representing dialogue history between users and AI), model name, resolved status (a boolean indicating whether the problem was solved), instance cost (a float), number of API calls (an integer), and a step cost list (a list of floats). The dataset is intended for tasks such as cost-effectiveness analysis, model comparison, or dialogue system optimization, focusing on recording resource consumption and outcome metrics during conversations. The data is provided in a test split, with a total size of approximately 35.4MB and a download size of approximately 13.7MB.
提供机构:
SWE-Router
搜集汇总
数据集介绍

构建方式
swebench-verified-gpt-5-mini数据集源自经典的SWE-bench基准测试,旨在评估语言模型在真实软件工程任务中的自动修复能力。该数据集精心挑选了500个已验证的实例,每个实例包含一个具体的软件缺陷问题描述及对应的多轮对话历史,其中对话由GPT-4o-mini模型生成,模拟了开发者与助手协作修复问题的交互过程。数据构建过程首先从SWE-bench中筛选出问题陈述清晰、可复现的实例,随后使用GPT-4o-mini生成修复路径,并记录每一步的API调用成本与状态,最终通过人工或自动验证标记修复是否成功。
特点
该数据集的核心特点在于其高度结构化的多轮对话设计,每个实例包含完整的消息序列,清晰区分了角色(用户或助手),便于训练和评估模型的逐步推理与代码生成能力。数据集中包含了详尽的成本信息,如每次API调用的开销及总成本,为模型效率分析提供了珍贵指标。此外,500个实例覆盖了多种真实代码库中的缺陷类型,从简单语法错误到复杂逻辑漏洞,确保了评估的全面性与挑战性。修复结果以布尔值明确标注,支持直接计算成功率。
使用方法
使用该数据集时,研究者可将每个实例的'problem_statement'作为输入,要求模型生成修复方案,并通过对比'messages'中的正确交互或直接验证代码修改的有效性来评估性能。数据集以标准HuggingFace格式存储,可通过datasets库轻松加载,其中'test'分割包含所有500个实例。建议在评估时关注模型在多轮对话中的上下文保持能力、代码编辑准确性以及API调用效率,同时利用'resolved'字段计算修复成功率。此外,'instance_cost'和'step_cost_list'可用于分析模型的经济效率与资源消耗模式。
背景与挑战
背景概述
在软件工程领域,自动化代码修复与问题解决能力是衡量大型语言模型实用性的重要标尺。swebench-verified-gpt-5-mini数据集于近期由研究团队构建,旨在针对真实世界软件工程任务(如GitHub Issue的自动修复)进行模型性能的标准化评估。该数据集包含500个经过严格验证的实例,每个实例涵盖问题陈述、模型生成的对话历史、修复结果及成本等结构化信息,为探究GPT-5-mini模型在软件工程基准测试中的表现提供了关键资源。其影响力体现在填补了轻量级模型在复杂代码修复场景下的系统性评测空白,推动了自动化调试领域更高效、更经济的解决方案研究。
当前挑战
当前数据集面临的核心挑战在于所解决的领域问题:软件工程中的自动化代码修复任务要求模型具备对深层依赖关系、跨文件上下文以及非结构化问题描述的理解能力,而传统评估基准常因实例复杂度过高或标注不一致导致性能度量失真。此外,构建过程中面临的数据稀疏性与验证成本难题——从真实GitHub仓库中提取并人工验证500个高质量实例需耗费大量工程资源,且需确保问题实例的可复现性、修复目标的唯一性以及评估指标的客观性,以避免数据泄露或过拟合风险,这些挑战共同制约了数据集规模与适用场景的扩展潜力。
常用场景
经典使用场景
在自动化软件工程与人工智能交叉领域中,swebench-verified-gpt-5-mini数据集被广泛用于评估和微调大型语言模型在代码生成与缺陷修复任务上的表现。该数据集包含500个经过验证的软件工程问题实例,每个实例都附有详细的问题陈述、交互消息记录以及模型生成的解决方案,特别适合构建和测试端到端的自动化补丁生成系统。研究者可基于此数据集训练模型在真实代码仓库中定位错误并生成修复代码,从而推动智能编程助手从概念验证迈向实际部署。
解决学术问题
该数据集直击软件工程自动化的核心学术挑战——如何使语言模型精准理解复杂代码库中的缺陷描述并进行语义正确的修复。通过提供标准化的验证基准,它解决了长期困扰学界的模型输出评估不一致性问题,使得不同算法间的性能比较具有可靠依据。其深远意义在于建立了从问题理解到代码修复的完整评估闭环,为程序修复、程序合成及人机协作编程等研究方向提供了可复现的实验基石,显著加速了该领域的理论验证与模型迭代进程。
衍生相关工作
基于该数据集的研究催生了多项开创性工作,包括提出多轮对话式代码修复框架、结合静态分析的混合修复策略,以及利用检索增强生成提升修复准确率的方法。后续研究进一步将其扩展至跨语言代码修复和自动化测试生成领域,衍生出诸如SWE-bench系列基准测试的升级版本。部分工作聚焦于分析模型在不同代码复杂度下的失败模式,推动了可解释性工具的开发,使语言模型在软件工程中的行为更加透明可控。
以上内容由遇见数据集搜集并总结生成



