five

syntaxsynth/swe-bench-opus-logs

收藏
Hugging Face2024-03-23 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/syntaxsynth/swe-bench-opus-logs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个问答任务数据集,专注于代码相关问题。数据集大小介于1K到10K之间,包含两个主要设置:Oracle检索和BM25检索。每个设置都有对应的测试数据文件,且每个子集包含一个额外的`log_last_line`属性,记录评估步骤中生成的日志文件的最后一行。数据集提供了不同模型在两种检索方法下的问题解决率,并存储了完整的日志文件供进一步分析。

该数据集是一个问答任务数据集,专注于代码相关问题。数据集大小介于1K到10K之间,包含两个主要设置:Oracle检索和BM25检索。每个设置都有对应的测试数据文件,且每个子集包含一个额外的`log_last_line`属性,记录评估步骤中生成的日志文件的最后一行。数据集提供了不同模型在两种检索方法下的问题解决率,并存储了完整的日志文件供进一步分析。
提供机构:
syntaxsynth
原始信息汇总

数据集概述

任务类别

  • 问答(question-answering)

标签

  • 代码(code)

数据集大小

  • 1K<n<10K

配置详情

  • 配置名称: opus-20240229-oracle-full

    • 数据文件:
      • 分割: 测试
      • 路径: claude-3-opus-20240229__SWE-bench_oracle__test.jsonl
  • 配置名称: opus-20240229-bm25-50k

    • 数据文件:
      • 分割: 测试
      • 路径: claude-3-opus-20240229__SWE-bench_bm25_50k_llama__test.jsonl

数据集内容

  • 包含SWE-bench在两种设置下的提示响应:
    • Oracle检索
    • BM25检索
  • 每个子集包含一个额外的log_last_line属性,记录评估步骤中生成的日志文件的最后一行。

结果

模型 BM25检索解决率(%) Oracle检索解决率(%)
GPT-4* 0 1.74
Claude-2 1.96 4.80
Claude-3 Opus (20240229) 3.24 6.42
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作