syntaxsynth/swe-bench-opus-logs
收藏Hugging Face2024-03-23 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/syntaxsynth/swe-bench-opus-logs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个问答任务数据集,专注于代码相关问题。数据集大小介于1K到10K之间,包含两个主要设置:Oracle检索和BM25检索。每个设置都有对应的测试数据文件,且每个子集包含一个额外的`log_last_line`属性,记录评估步骤中生成的日志文件的最后一行。数据集提供了不同模型在两种检索方法下的问题解决率,并存储了完整的日志文件供进一步分析。
该数据集是一个问答任务数据集,专注于代码相关问题。数据集大小介于1K到10K之间,包含两个主要设置:Oracle检索和BM25检索。每个设置都有对应的测试数据文件,且每个子集包含一个额外的`log_last_line`属性,记录评估步骤中生成的日志文件的最后一行。数据集提供了不同模型在两种检索方法下的问题解决率,并存储了完整的日志文件供进一步分析。
提供机构:
syntaxsynth
原始信息汇总
数据集概述
任务类别
- 问答(question-answering)
标签
- 代码(code)
数据集大小
- 1K<n<10K
配置详情
-
配置名称: opus-20240229-oracle-full
- 数据文件:
- 分割: 测试
- 路径: claude-3-opus-20240229__SWE-bench_oracle__test.jsonl
- 数据文件:
-
配置名称: opus-20240229-bm25-50k
- 数据文件:
- 分割: 测试
- 路径: claude-3-opus-20240229__SWE-bench_bm25_50k_llama__test.jsonl
- 数据文件:
数据集内容
- 包含SWE-bench在两种设置下的提示响应:
- Oracle检索
- BM25检索
- 每个子集包含一个额外的
log_last_line属性,记录评估步骤中生成的日志文件的最后一行。
结果
| 模型 | BM25检索解决率(%) | Oracle检索解决率(%) |
|---|---|---|
| GPT-4* | 0 | 1.74 |
| Claude-2 | 1.96 | 4.80 |
| Claude-3 Opus (20240229) | 3.24 | 6.42 |



