astra-benchmark dataset

github2025-02-05 更新2025-02-13 收录

下载链接：

https://github.com/interviewstreet/astra-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

用于评估多种多文件问题的数据集，包含各自唯一的标识符和关联的元数据，存储在一个名为`project_questions.csv`的CSV文件中。

This dataset is designed for evaluating diverse multi-file questions, with each entry featuring a unique identifier and associated metadata, and it is stored in a CSV file named `project_questions.csv`.

创建时间：

2025-02-05

原始信息汇总

ASTRA Benchmark 数据集概述

数据集简介

数据集名称：ASTRA Benchmark
数据集用途：用于对多种多文件问题进行基准测试，自动化下载项目文件、生成解决方案、更新项目文件、在Docker容器中运行测试，并捕获测试结果。

数据集结构

数据集格式：CSV
数据集文件：project_questions.csv
文件内容：
- id：问题的唯一标识符
- name：项目名称
- type：项目类型
- problem_statement：问题描述
- project_url：下载项目文件的URL
- sub_type：项目的子类型（如 nodejs、python）
- test_command：运行测试的命令
- testcases：测试用例列表
- testcase_files：测试用例文件列表
- total_testcases：测试用例总数

评估流程

运行主脚本：python3 project_questions_harness.py
输入模型名称、迭代次数、问题ID和响应格式（json或xml）
运行结果存储在 output_csv/<model>/ 目录下
计算最终聚合指标：python3 aggregated_metrics.py
最终结果存储在 aggregated_results/<model>/ 目录下

支持的模型

gpt-4o
o1-preview
claude-3.5-sonnet
gemini-1.5-pro
o1

聚合指标

平均分数计算（Average Score）
第一次通过率计算（Pass@1）
标准差计算（Median Standard Deviation）

搜集汇总

数据集介绍

构建方式

astra-benchmark dataset 是通过自动化下载项目文件、使用模型生成解决方案、更新项目文件、在 Docker 容器中运行测试并捕获测试结果的过程构建的。该数据集包含多个项目问题，每个问题都有其唯一的标识符和关联的元数据，这些问题被存储在项目根目录下的 CSV 文件中。

特点

该数据集的特点在于其自动化测试和结果捕获的流程，它支持多种模型，并能够对模型的性能进行全面的评估。数据集的构建允许进行多次迭代以评估模型的稳健性和准确性，同时支持 XML 格式的响应，以适应不同的文件路径和内容需求。

使用方法

使用该数据集时，首先需要确保满足运行环境的要求，包括 Python 版本、Docker 版本以及必要的 API 密钥。然后，通过克隆仓库、安装 Python 包和配置环境变量来准备数据集。执行主脚本后，根据提示输入模型名称、迭代次数、问题 ID 和响应格式，以开始评估过程。评估完成后，可通过聚合度量脚本来计算最终结果。

背景与挑战

背景概述

astra-benchmark数据集旨在为多种多文件问题提供基准测试，通过自动化下载项目文件、使用模型生成解决方案、更新项目文件、在Docker容器中运行测试并捕获测试结果的过程，以评估不同模型在处理编程问题时的性能。该数据集的创建时间为近期，由Interviewstreet团队开发，核心研究问题是衡量模型在多文件编程任务中的表现，对程序合成和自动编程领域的研究具有显著推动作用。

当前挑战

astra-benchmark数据集面临的挑战主要包括：1)领域问题挑战，即如何准确评估模型在处理复杂多文件编程任务时的性能，特别是对于代码生成和自动测试的准确性；2)构建过程中的挑战，包括数据集的多样性和覆盖性，确保测试用例的有效性和公平性，以及数据处理和模型评估时的高资源消耗。

常用场景

经典使用场景

astra-benchmark数据集是针对多文件问题进行模型性能基准测试而设计的。其经典使用场景在于自动化地下载项目文件，使用模型生成解决方案，更新项目文件，并在Docker容器中运行测试，以捕获测试结果，从而评估模型在处理编程问题时的性能和准确性。

实际应用

在实际应用中，astra-benchmark数据集可用于评估和比较编程助手和自动代码生成工具的性能。软件开发公司和教育机构可以利用该数据集来指导教学、优化工具，并提升编程自动化相关技术的研发质量。

衍生相关工作

基于astra-benchmark数据集，研究者已经衍生出多项相关工作，包括但不限于改进编程问题自动解决算法、开发更高效的代码生成模型，以及构建用于评估和提升模型性能的指标体系。这些工作为编程自动化领域提供了丰富的实验基础和性能评价标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集