PRDBench
收藏arXiv2025-10-28 更新2025-10-30 收录
下载链接:
https://github.com/AGI-Eval-Official/PRDBench
下载链接
链接失效反馈官方服务:
资源简介:
PRDBench是一个包含50个真实世界Python项目的基准数据集,涵盖20个领域。每个项目都包含结构化的产品需求文档(PRD)、全面的评估标准和参考实现。该数据集具有丰富的数据来源、高任务复杂性和灵活的评估指标。数据集创建过程利用先进的代码代理生成项目框架和评估标准,人工标注者只需验证标准与项目接口的一致性以及预期输出是否符合PRD要求。PRDBench旨在解决现有代码代理评估基准数据集标注成本高、专家要求高以及评估指标僵化的问题,为代码代理和评估代理的能力评估提供了一个可扩展且健壮的框架。
PRDBench is a benchmark dataset comprising 50 real-world Python projects spanning 20 domains. Each project includes a structured Product Requirements Document (PRD), comprehensive evaluation criteria, and reference implementations. This dataset features diverse data sources, high task complexity, and flexible evaluation metrics. The dataset creation process leverages advanced code agents to generate project frameworks and evaluation criteria, with human annotators only required to verify the consistency between the criteria and project interfaces, as well as whether the expected outputs align with PRD requirements. PRDBench aims to address the problems of high annotation costs, high expert requirements and rigid evaluation metrics in existing code agent evaluation benchmark datasets, providing a scalable and robust framework for evaluating the capabilities of both code agents and evaluation agents.
提供机构:
上海交通大学, 上海, 中国
创建时间:
2025-10-28
搜集汇总
数据集介绍

构建方式
PRDBench采用创新的智能体驱动构建流程,通过五阶段流水线实现项目级基准测试的高效生成。在种子任务筛选阶段,从真实开发需求与学术项目中选取符合Python实现规范的50个任务,覆盖20个技术领域。随后利用前沿代码智能体生成项目脚手架与产品需求文档,结合Arrange-Act-Assert方法构建可执行评估方案。人类标注者仅需验证接口兼容性与输出合理性,将单项目标注时间压缩至八小时,显著降低传统基准测试对领域专家的依赖。
特点
该数据集具备多维度技术特征,其核心优势体现在评估体系的灵活性与全面性。通过结构化产品需求文档与可验证标准方案,提供1262个评估点位的细粒度测试覆盖,包含单元测试、命令行交互与文件比对三类评估模式。数据集任务源自真实工程场景,平均代码规模达2583行,既包含188行的轻量级应用,也涵盖9185行的复杂系统。评估智能体集成多模态工具链,支持图像识别与动态分析,突破传统单元测试的局限性,实现更贴近实际开发的质量评估。
使用方法
使用PRDBench时需遵循标准化评估协议,首先将代码智能体生成的项目提交至评估环境。评估智能体基于预定义标准方案执行自动化验证,通过六类核心工具实现多维度测试:文件读写工具解析代码结构,命令行工具模拟用户交互,图像处理工具验证可视化输出。系统自动生成包含评分细则的JSON格式报告,支持开发与调试双阶段评估模式。在自由开发场景下,评估智能体可自适应调整测试接口,确保在无预设约束条件下仍能保持评估一致性,为代码智能体的工程能力提供可靠度量。
背景与挑战
背景概述
PRDBench作为2025年推出的项目级代码智能体评估基准,由上海交通大学联合美团、AGI-Eval等机构共同研发。该基准聚焦于解决大语言模型驱动的代码智能体在完整软件开发周期中的性能评估问题,通过引入产品需求文档(PRD)作为任务规范核心,构建了涵盖20个领域的50个真实世界Python项目。其创新性在于采用智能体驱动的数据生产流程,显著降低了传统基准构建所需的高昂专家标注成本,为自动化软件工程领域提供了更贴近实际开发场景的评估框架。
当前挑战
在领域问题层面,PRDBench致力于攻克项目级代码生成评估的复杂性挑战,传统基准过度依赖单元测试的单一验证方式难以全面反映软件工程中集成测试、端到端测试等多元化质量保障需求。构建过程中面临的核心挑战在于平衡标注质量与成本约束,需通过智能体辅助标注机制确保测试方案与项目接口的兼容性,同时维持评估指标在单元测试、交互式命令行和文件比对等多维测试类型中的灵活性,这对评估智能体的稳定性与人类判断的一致性提出了更高要求。
常用场景
经典使用场景
在自动化软件开发领域,PRDBench作为项目级代码智能体评估基准,其经典应用场景聚焦于全面测试智能体从需求理解到代码实现的端到端开发能力。该数据集通过结构化产品需求文档和多样化测试标准,模拟真实软件工程中的完整开发流程,涵盖从数据预处理到系统部署的各个环节,为评估智能体在复杂项目环境下的综合表现提供了标准化平台。
解决学术问题
PRDBench有效解决了代码智能体评估领域的两大核心难题:高成本标注依赖与单一化测试标准局限。通过引入智能体驱动的标注流程,将专家标注时间从数日压缩至八小时,显著降低了基准构建的人力成本;同时突破传统单元测试的桎梏,创新性地整合了命令行交互、文件比对等多元评估维度,为全面衡量智能体的工程化能力建立了系统化解决方案。
衍生相关工作
基于PRDBench的创新范式,研究社区衍生出多项重要工作。EvalAgent评估框架将智能体即裁判理念具象化,开创了动态适配的自动化评估体系;Agent-as-a-Judge范式被DevAI等后续研究扩展应用于更广泛的代码审查场景;其模块化测试架构更启发了ProjectEval等基准在跨语言项目评估中的移植应用,推动了智能体评估方法论的系统化演进。
以上内容由遇见数据集搜集并总结生成



