ProjectEval

Name: ProjectEval
Creator: 哈尔滨工业大学（深圳）
Published: 2025-03-10 15:47:27
License: 暂无描述

arXiv2025-03-10 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.07010v1

下载链接

链接失效反馈

官方服务：

资源简介：

ProjectEval是一个针对编程代理自动化评估的新基准，由LLM生成并与人工审核相结合构建而成。它包含三个不同级别的输入，分别是自然语言提示、自然语言检查表和代码框架。该数据集支持网站项目和批处理/控制台程序两种任务类型，旨在通过模拟用户交互来自动化评估项目代码质量。

ProjectEval is a novel benchmark for automated evaluation of programming agents. It is constructed by combining LLM-generated content with human review, and encompasses three distinct levels of inputs: natural language prompts, natural language checklists, and code frameworks. This dataset supports two task types: website projects and batch/console programs, and aims to automate the assessment of project code quality by simulating user interactions.

提供机构：

哈尔滨工业大学（深圳）

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

ProjectEval数据集的构建方式是通过模拟用户交互，结合自然语言或代码骨架的三个不同输入级别，对编程智能体在项目级别的代码生成能力进行自动评估。该数据集由LLM生成，并经过人工审核。每个任务包含三个不同的输入级别，包括自然语言提示、自然语言清单和代码骨架。测试套件包括自动化评估的Python函数，这些函数模拟用户交互来测试智能体生成的项目。同时，每个任务都有一个规范解决方案，包括规范代码和规范参数值。

特点

ProjectEval数据集的特点是它提供了用户中心的框架，具有现实世界的适用性，并支持网站和批处理/控制台项目。数据集具有三个不同级别的输入，包括自然语言提示、自然语言清单和代码骨架，以确保精确和可适应的评估，并增强结果的可解释性。此外，数据集还实现了从用户角度自动评估代码生成能力的测试套件，这是一种新的低成本方法。

使用方法

使用ProjectEval数据集的方法包括选择特定的输入级别并将其呈现给智能体，智能体可以使用任何设计或方法来解决输入并生成解决方案代码。然后，将代码反馈到智能体中，并与参数描述一起使用，智能体基于其生成的代码回答参数描述以产生参数值。接下来，将代码转换为可执行文件，创建一个实际的项目。然后，将项目与带有替换的参数值的测试代码集成到ProjectEval评估机中，以获得评估结果。

背景与挑战

背景概述

ProjectEval是一个针对编程智能体在项目级代码生成方面的自动评估的新基准，由哈尔滨工业大学（深圳）、鹏城实验室和哈尔滨工业大学的研究人员于2024年创建。该数据集旨在解决现有基准在自动评估和可解释性方面的不足。ProjectEval通过模拟用户交互，为编程智能体提供了一种自动评估项目级代码生成能力的框架。它包含了三个不同级别的输入：自然语言提示、自然语言清单和代码框架，并支持网站和批处理/控制台项目。该数据集的创建填补了现有基准在项目级代码生成评估方面的空白，为未来编程智能体的发展提供了重要的参考和指导。

当前挑战

ProjectEval面临的挑战包括：1) 编程智能体在生成项目级代码方面的整体正确性和可执行性仍然较低，尤其是在开源模型中；2) 现有基准在评估过程中缺乏自动化的用户交互模拟，难以真实反映用户的使用体验；3) 现有的评估指标主要依赖于自然语言测试，需要人工判断，效率较低；4) 现有的基准在评估结果的可解释性方面存在不足。

常用场景

经典使用场景

ProjectEval数据集旨在提供一个自动化评估大型语言模型（LLM）代理在项目级别代码生成能力的基准。该数据集通过模拟用户交互来评估生成的项目，通过代码相似性以及现有的客观指标进行评估。ProjectEval包含三种不同级别的输入：自然语言或代码骨架，以及用户交互模拟和代码相似性的自动化评估。该数据集的使用场景包括评估LLM代理生成项目代码的能力，以及提高LLM代理在项目级别编程任务中的可解释性。

衍生相关工作

ProjectEval数据集衍生了与编程代理代码生成评估相关的工作，如评估LLM代理在项目级别编程任务中的能力。此外，该数据集还推动了LLM代理代码生成可解释性的研究，为开发更有效的编程代理提供了有价值的见解。

数据集最近研究