SWE-bench Verified 代码生成评估基准数据集
收藏超神经2024-08-23 更新2024-12-14 收录
下载链接:
https://hyper.ai/cn/datasets/33655
下载链接
链接失效反馈官方服务:
资源简介:
该基准是对现有 SWE-bench 的改进版本(子集),旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。
This benchmark is an improved subset of the existing SWE-bench, designed to more reliably evaluate the capability of AI models to solve real-world software engineering problems.
创建时间:
2024-08-21
搜集汇总
数据集介绍

背景与挑战
背景概述
SWE-bench Verified是SWE-bench的一个经过人工验证的改进子集,旨在更可靠地评估AI模型解决现实软件问题的能力。它包含500个已验证样本,其中GPT-4o解决了33.2%的问题,而最佳开源代理框架的得分为16%。
以上内容由遇见数据集搜集并总结生成



