syntaxsynth/swe-bench-opus-logs

Name: syntaxsynth/swe-bench-opus-logs
Creator: syntaxsynth
Published: 2024-03-23 02:36:50
License: 暂无描述

Hugging Face2024-03-23 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/syntaxsynth/swe-bench-opus-logs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个问答任务数据集，专注于代码相关问题。数据集大小介于1K到10K之间，包含两个主要设置：Oracle检索和BM25检索。每个设置都有对应的测试数据文件，且每个子集包含一个额外的`log_last_line`属性，记录评估步骤中生成的日志文件的最后一行。数据集提供了不同模型在两种检索方法下的问题解决率，并存储了完整的日志文件供进一步分析。

提供机构：

syntaxsynth

原始信息汇总

数据集概述

任务类别

问答（question-answering）

数据集大小

1K<n<10K

配置详情

配置名称: opus-20240229-oracle-full
- 数据文件:
  - 分割: 测试
  - 路径: claude-3-opus-20240229__SWE-bench_oracle__test.jsonl
配置名称: opus-20240229-bm25-50k
- 数据文件:
  - 分割: 测试
  - 路径: claude-3-opus-20240229__SWE-bench_bm25_50k_llama__test.jsonl

数据集内容

包含SWE-bench在两种设置下的提示响应：
- Oracle检索
- BM25检索
每个子集包含一个额外的log_last_line属性，记录评估步骤中生成的日志文件的最后一行。

结果

模型	BM25检索解决率(%)	Oracle检索解决率(%)
GPT-4*	0	1.74
Claude-2	1.96	4.80
Claude-3 Opus (20240229)	3.24	6.42

5,000+

优质数据集

54 个

任务类型

进入经典数据集