PwP-Bench

github2025-02-27 更新2025-03-08 收录

下载链接：

https://github.com/ProgrammingWithPixels/PwP

下载链接

链接失效反馈

官方服务：

资源简介：

PwP-Bench是一个包含多种基准任务的框架，用于评估智能体在软件工程任务中的表现，包括Python编程问题、设计稿转代码、根据视觉参考重现图表等任务。

PwP-Bench is a framework encompassing a variety of benchmark tasks designed to evaluate the performance of agents in software engineering tasks, including Python programming challenges, design-to-code conversion, and the reproduction of charts based on visual references.

创建时间：

2025-02-26

原始信息汇总

数据集概述

数据集名称

Programming with Pixels (PwP)

数据集简介

PwP是一个用于评估和发展软件工程（SWE）代理的现代框架，这些代理通过视觉感知和基本动作（如打字和点击）与计算机交互，类似于人类的使用方式。

数据集构成

包含用于评估代理的广泛基准任务，如HumanEval（Python编码问题）、Design2Code（将设计原型转换为代码）、ChartMimic（根据视觉参考重现图表）等。

安装与使用

先决条件：Python 3.6+、Docker、（可选）支持CUDA的NVIDIA GPU。
使用pip安装：pip install programming-with-pixels
开发环境安装：克隆仓库后执行pip install -e .

快速入门

创建基本环境、截屏、执行命令、尝试基准任务。

命令行接口

启动环境：pwp env --vnc
列出可用基准任务：pwp list
运行基准：pwp bench humaneval

示例

提供了多个示例脚本来展示PwP的功能。

包结构

包含多个模块，如pwp.env（环境管理）、pwp.bench（基准任务）、pwp.agents（代理实现）等。

许可

本项目遵循MIT许可。

引用

若使用PwP进行研究，请引用相关论文。

搜集汇总

数据集介绍

构建方式

PwP-Bench数据集的构建基于现代软件工程理念，其核心在于将软件工程代理的评价与发展转向模拟人类计算机使用行为的模式。数据集通过整合Docker容器技术，搭建了一个支持屏幕截图和基础动作（如打字、点击）的交互环境，旨在训练和评估能够与任何集成开发环境（IDE）界面交互的计算机使用代理。

使用方法

使用PwP-Bench数据集首先需要安装Python 3.6+版本和Docker环境。用户可以通过pip命令安装PwP库，然后利用其API创建环境、执行命令、获取数据集、设置任务环境等。此外，数据集还提供了命令行界面和示例脚本，方便用户快速开始使用。对于自定义环境的构建，用户可以基于提供的基镜像进行扩展，安装额外的依赖，并添加自定义文件。

背景与挑战

背景概述

Programming with Pixels (PwP)数据集，创建于2025年，由Pranjal Aggarwal和Sean Welleck等研究人员提出。该数据集旨在构建一种新框架，用于评估和发展软件工程（SWE）代理，这些代理能像人类一样通过视觉感知和基本操作（如打字和点击）与计算机交互。其核心研究问题是实现通用软件工程代理，该代理能够通过屏幕截图和基本动作与任何集成开发环境（IDE）界面交互，而非通过专用工具API。PwP数据集的提出，对软件工程自动化领域产生了重要影响，为代理的评估和发展提供了新的视角和方法。

当前挑战

PwP数据集面临的挑战主要包括：1）领域问题挑战，即如何使软件工程代理能够有效地处理多样化的编程任务，如Python编码问题、设计稿转码、视觉参考图表模拟等；2）构建过程中的挑战，包括如何构建能够模拟人类视觉操作的环境，以及如何设计能够适应不同任务和工具的代理模型。这些挑战对于提升软件工程代理的智能水平至关重要。

常用场景

经典使用场景

Programming with Pixels (PwP)数据集，旨在评估与发展能够如同人类一样通过视觉感知与基础动作与计算机互动的软件工程(SWE)智能体。其经典使用场景在于，研究者通过该数据集提供的模拟编程环境，训练智能体执行编码任务、界面交互等，进而评估智能体在软件工程领域的表现。

解决学术问题

PwP-Bench数据集解决了软件工程领域中，智能体与集成开发环境(IDE)交互的通用性问题。传统的智能体通常通过特定工具API进行交互，而PwP-Bench则允许智能体通过屏幕截图和基本动作与任意IDE界面交互，为学术研究提供了新的视角和方法，推动了软件工程智能体研究的进展。

实际应用

在实际应用中，PwP-Bench数据集可用于评估智能体在处理真实编程任务时的能力，如自动编码、代码审查、软件维护等。其提供的多样任务和灵活环境，使得智能体能够在接近真实工作场景的条件下进行训练和测试，有助于提升软件工程智能体的实用性和可靠性。

数据集最近研究