five

astra-benchmark dataset

收藏
github2025-02-05 更新2025-02-13 收录
下载链接:
https://github.com/interviewstreet/astra-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
用于评估多种多文件问题的数据集,包含各自唯一的标识符和关联的元数据,存储在一个名为`project_questions.csv`的CSV文件中。

This dataset is designed for evaluating diverse multi-file questions, with each entry featuring a unique identifier and associated metadata, and it is stored in a CSV file named `project_questions.csv`.
创建时间:
2025-02-05
原始信息汇总

ASTRA Benchmark 数据集概述

数据集简介

  • 数据集名称:ASTRA Benchmark
  • 数据集用途:用于对多种多文件问题进行基准测试,自动化下载项目文件、生成解决方案、更新项目文件、在Docker容器中运行测试,并捕获测试结果。

数据集结构

  • 数据集格式:CSV
  • 数据集文件:project_questions.csv
  • 文件内容:
    • id:问题的唯一标识符
    • name:项目名称
    • type:项目类型
    • problem_statement:问题描述
    • project_url:下载项目文件的URL
    • sub_type:项目的子类型(如 nodejspython
    • test_command:运行测试的命令
    • testcases:测试用例列表
    • testcase_files:测试用例文件列表
    • total_testcases:测试用例总数

评估流程

  • 运行主脚本:python3 project_questions_harness.py
  • 输入模型名称、迭代次数、问题ID和响应格式(json或xml)
  • 运行结果存储在 output_csv/<model>/ 目录下
  • 计算最终聚合指标:python3 aggregated_metrics.py
  • 最终结果存储在 aggregated_results/<model>/ 目录下

支持的模型

  • gpt-4o
  • o1-preview
  • claude-3.5-sonnet
  • gemini-1.5-pro
  • o1

聚合指标

  • 平均分数计算(Average Score)
  • 第一次通过率计算(Pass@1)
  • 标准差计算(Median Standard Deviation)
搜集汇总
数据集介绍
main_image_url
构建方式
astra-benchmark dataset 是通过自动化下载项目文件、使用模型生成解决方案、更新项目文件、在 Docker 容器中运行测试并捕获测试结果的过程构建的。该数据集包含多个项目问题,每个问题都有其唯一的标识符和关联的元数据,这些问题被存储在项目根目录下的 CSV 文件中。
特点
该数据集的特点在于其自动化测试和结果捕获的流程,它支持多种模型,并能够对模型的性能进行全面的评估。数据集的构建允许进行多次迭代以评估模型的稳健性和准确性,同时支持 XML 格式的响应,以适应不同的文件路径和内容需求。
使用方法
使用该数据集时,首先需要确保满足运行环境的要求,包括 Python 版本、Docker 版本以及必要的 API 密钥。然后,通过克隆仓库、安装 Python 包和配置环境变量来准备数据集。执行主脚本后,根据提示输入模型名称、迭代次数、问题 ID 和响应格式,以开始评估过程。评估完成后,可通过聚合度量脚本来计算最终结果。
背景与挑战
背景概述
astra-benchmark数据集旨在为多种多文件问题提供基准测试,通过自动化下载项目文件、使用模型生成解决方案、更新项目文件、在Docker容器中运行测试并捕获测试结果的过程,以评估不同模型在处理编程问题时的性能。该数据集的创建时间为近期,由Interviewstreet团队开发,核心研究问题是衡量模型在多文件编程任务中的表现,对程序合成和自动编程领域的研究具有显著推动作用。
当前挑战
astra-benchmark数据集面临的挑战主要包括:1)领域问题挑战,即如何准确评估模型在处理复杂多文件编程任务时的性能,特别是对于代码生成和自动测试的准确性;2)构建过程中的挑战,包括数据集的多样性和覆盖性,确保测试用例的有效性和公平性,以及数据处理和模型评估时的高资源消耗。
常用场景
经典使用场景
astra-benchmark数据集是针对多文件问题进行模型性能基准测试而设计的。其经典使用场景在于自动化地下载项目文件,使用模型生成解决方案,更新项目文件,并在Docker容器中运行测试,以捕获测试结果,从而评估模型在处理编程问题时的性能和准确性。
实际应用
在实际应用中,astra-benchmark数据集可用于评估和比较编程助手和自动代码生成工具的性能。软件开发公司和教育机构可以利用该数据集来指导教学、优化工具,并提升编程自动化相关技术的研发质量。
衍生相关工作
基于astra-benchmark数据集,研究者已经衍生出多项相关工作,包括但不限于改进编程问题自动解决算法、开发更高效的代码生成模型,以及构建用于评估和提升模型性能的指标体系。这些工作为编程自动化领域提供了丰富的实验基础和性能评价标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作