SWE-bench Verified 代码生成评估基准数据集

超神经2024-08-23 更新2024-12-14 收录

下载链接：

https://hyper.ai/cn/datasets/33655

下载链接

链接失效反馈

官方服务：

资源简介：

该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

This benchmark is an improved subset of the existing SWE-bench, designed to more reliably evaluate the capability of AI models to solve real-world software engineering problems.

创建时间：

2024-08-21

搜集汇总

数据集介绍

背景与挑战

背景概述

SWE-bench Verified是SWE-bench的一个经过人工验证的改进子集，旨在更可靠地评估AI模型解决现实软件问题的能力。它包含500个已验证样本，其中GPT-4o解决了33.2%的问题，而最佳开源代理框架的得分为16%。

以上内容由遇见数据集搜集并总结生成