astra-benchmark dataset
收藏github2025-02-05 更新2025-02-13 收录
下载链接:
https://github.com/interviewstreet/astra-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
用于评估多种多文件问题的数据集,包含各自唯一的标识符和关联的元数据,存储在一个名为`project_questions.csv`的CSV文件中。
This dataset is designed for evaluating diverse multi-file questions, with each entry featuring a unique identifier and associated metadata, and it is stored in a CSV file named `project_questions.csv`.
创建时间:
2025-02-05
原始信息汇总
ASTRA Benchmark 数据集概述
数据集简介
- 数据集名称:ASTRA Benchmark
- 数据集用途:用于对多种多文件问题进行基准测试,自动化下载项目文件、生成解决方案、更新项目文件、在Docker容器中运行测试,并捕获测试结果。
数据集结构
- 数据集格式:CSV
- 数据集文件:
project_questions.csv - 文件内容:
id:问题的唯一标识符name:项目名称type:项目类型problem_statement:问题描述project_url:下载项目文件的URLsub_type:项目的子类型(如nodejs、python)test_command:运行测试的命令testcases:测试用例列表testcase_files:测试用例文件列表total_testcases:测试用例总数
评估流程
- 运行主脚本:
python3 project_questions_harness.py - 输入模型名称、迭代次数、问题ID和响应格式(json或xml)
- 运行结果存储在
output_csv/<model>/目录下 - 计算最终聚合指标:
python3 aggregated_metrics.py - 最终结果存储在
aggregated_results/<model>/目录下
支持的模型
gpt-4oo1-previewclaude-3.5-sonnetgemini-1.5-proo1
聚合指标
- 平均分数计算(Average Score)
- 第一次通过率计算(Pass@1)
- 标准差计算(Median Standard Deviation)
搜集汇总
数据集介绍

构建方式
astra-benchmark dataset 是通过自动化下载项目文件、使用模型生成解决方案、更新项目文件、在 Docker 容器中运行测试并捕获测试结果的过程构建的。该数据集包含多个项目问题,每个问题都有其唯一的标识符和关联的元数据,这些问题被存储在项目根目录下的 CSV 文件中。
特点
该数据集的特点在于其自动化测试和结果捕获的流程,它支持多种模型,并能够对模型的性能进行全面的评估。数据集的构建允许进行多次迭代以评估模型的稳健性和准确性,同时支持 XML 格式的响应,以适应不同的文件路径和内容需求。
使用方法
使用该数据集时,首先需要确保满足运行环境的要求,包括 Python 版本、Docker 版本以及必要的 API 密钥。然后,通过克隆仓库、安装 Python 包和配置环境变量来准备数据集。执行主脚本后,根据提示输入模型名称、迭代次数、问题 ID 和响应格式,以开始评估过程。评估完成后,可通过聚合度量脚本来计算最终结果。
背景与挑战
背景概述
astra-benchmark数据集旨在为多种多文件问题提供基准测试,通过自动化下载项目文件、使用模型生成解决方案、更新项目文件、在Docker容器中运行测试并捕获测试结果的过程,以评估不同模型在处理编程问题时的性能。该数据集的创建时间为近期,由Interviewstreet团队开发,核心研究问题是衡量模型在多文件编程任务中的表现,对程序合成和自动编程领域的研究具有显著推动作用。
当前挑战
astra-benchmark数据集面临的挑战主要包括:1)领域问题挑战,即如何准确评估模型在处理复杂多文件编程任务时的性能,特别是对于代码生成和自动测试的准确性;2)构建过程中的挑战,包括数据集的多样性和覆盖性,确保测试用例的有效性和公平性,以及数据处理和模型评估时的高资源消耗。
常用场景
经典使用场景
astra-benchmark数据集是针对多文件问题进行模型性能基准测试而设计的。其经典使用场景在于自动化地下载项目文件,使用模型生成解决方案,更新项目文件,并在Docker容器中运行测试,以捕获测试结果,从而评估模型在处理编程问题时的性能和准确性。
实际应用
在实际应用中,astra-benchmark数据集可用于评估和比较编程助手和自动代码生成工具的性能。软件开发公司和教育机构可以利用该数据集来指导教学、优化工具,并提升编程自动化相关技术的研发质量。
衍生相关工作
基于astra-benchmark数据集,研究者已经衍生出多项相关工作,包括但不限于改进编程问题自动解决算法、开发更高效的代码生成模型,以及构建用于评估和提升模型性能的指标体系。这些工作为编程自动化领域提供了丰富的实验基础和性能评价标准。
以上内容由遇见数据集搜集并总结生成



