ProBench

Name: ProBench
Creator: 天津大学
Published: 2025-02-28 17:12:42
License: 暂无描述

arXiv2025-02-28 更新2025-03-04 收录

下载链接：

https://github.com/YL-9/probench

下载链接

链接失效反馈

官方服务：

资源简介：

ProBench是一个针对竞赛编程的大型语言模型评估基准，由天津大学提出。该数据集从Codeforces、Luogu和Nowcoder三个编程竞赛平台收集了2024年7月至12月期间的竞赛问题，通过在线提交生成的代码解决方案，利用原竞赛平台的全面测试用例来严格评估代码的正确性。数据集包含问题描述、难度等级和算法标签等详细信息，旨在全面、公平、深入地分析大型语言模型在竞赛编程中的推理能力。

ProBench is a large language model evaluation benchmark for competitive programming, proposed by Tianjin University. This dataset collects competitive programming problems from three platforms—Codeforces, Luogu, and Nowcoder—covering the period from July to December 2024. It uses code solutions generated via online submissions and rigorously evaluates the correctness of the code with the comprehensive test cases provided by the original contest platforms. The dataset contains detailed information including problem descriptions, difficulty levels, and algorithm tags, and aims to conduct a comprehensive, fair, and in-depth analysis of the reasoning capabilities of large language models in competitive programming.

提供机构：

天津大学

创建时间：

2025-02-28

搜集汇总

数据集介绍

构建方式

ProBench 数据集的构建方式是从 Codeforces、Luogu 和 Nowcoder 平台收集了从 2024 年 7 月到 12 月期间的所有竞赛问题。这些问题涵盖了从简单到困难的各种难度级别，并且包含了对算法和数据的广泛要求。为了确保评估的公平性和准确性，这些问题被提交到原始的竞赛平台上进行在线测试。此外，ProBench 还建立了一个统一的问题属性系统，包括难度等级和算法标签，以便对模型的能力进行多维度的评估。

特点

ProBench 数据集的特点在于它提供了一个全面的问题集，这些问题集是从知名的竞赛平台上收集的，并且通过在线提交的方式进行了真实的测试，从而保证了评估的公平性和准确性。此外，ProBench 还提供了一个统一的问题属性系统，包括难度等级和算法标签，以便对模型的能力进行多维度的评估。这使得 ProBench 成为评估高级 LLMs 在代码推理能力方面的有力工具。

使用方法

ProBench 数据集的使用方法是通过在线提交的方式，将模型生成的代码提交到原始的竞赛平台上进行测试。这种方式可以确保代码的健壮性，并且可以通过平台提供的全面测试用例来评估代码的正确性。此外，ProBench 还提供了一个统一的问题属性系统，包括难度等级和算法标签，以便对模型的能力进行多维度的评估。这可以帮助研究人员更全面地了解模型在代码推理方面的能力，并为未来的模型研究和开发提供重要的参考。

背景与挑战

背景概述

随着OpenAI-o3和DeepSeek-R1等推理语言模型的兴起，大型语言模型（LLMs）进入了新的发展阶段。然而，现有的编码评估基准逐渐不足以评估高级LLMs在代码推理方面的能力。为了填补高级代码推理评估的差距，我们提出了ProBench，用于在竞技编程中评估LLMs，灵感来自国际大学生程序设计竞赛（ICPC）。ProBench收集了从2024年7月至12月期间，Codeforces、Luogu和Nowcoder平台上的全面竞技编程问题集，通过在线提交确保评估的公平性和准确性。我们建立了一个统一的问题属性系统，包括难度分级和算法标记。ProBench收集并注释了精心收集的数据，系统地评估了9个最新的LLMs在竞技编程中的多个维度，包括思维链分析、错误类型诊断和推理深度评估。实验结果表明，QwQ-32B-Preview获得了20.93的最高分，其次是DeepSeek-V3的16.38分，表明专门针对推理任务训练的模型在编程方面显著优于通用模型（甚至大于推理导向模型）。进一步分析还揭示了编程能力提升的关键领域，例如算法适应性和推理充分性，为推理模型未来的发展提供了重要的见解。

当前挑战

ProBench面临的挑战包括：1) 领域问题挑战：现有的代码评估基准通常不足以评估高级LLMs在具有挑战性的编程任务，尤其是竞技编程方面的能力。2) 构建过程中的挑战：为了确保公平性和准确性，ProBench采用了在线提交机制，直接将生成的代码解决方案提交到原始竞赛平台的在线评估系统。虽然这保证了代码的鲁棒性，但也增加了构建和评估的复杂性。

常用场景

经典使用场景

ProBench数据集主要用于评估大型语言模型（LLMs）在竞争性编程中的推理能力。该数据集收集了来自Codeforces、Luogu和Nowcoder平台从2024年7月到12月的竞赛问题，并通过在线提交获取了真实的测试结果，以确保评估的公平性和准确性。ProBench建立了一个统一的问题属性系统，包括难度分级和算法标签，并通过系统性地评估9个最新的LLMs在竞争性编程中的多个维度，包括思维链分析、错误类型诊断和推理深度评估。实验结果表明，QwQ-32B-Preview在竞争性编程中取得了最佳成绩，得分为20.93，其次是DeepSeek-V3，得分为16.38，这表明专门针对推理任务训练的模型在编程中显著优于通用模型（甚至优于以推理为导向的模型）。

解决学术问题

ProBench数据集解决了现有编码评估基准在评估高级LLMs在挑战性编程（尤其是竞争性编程）中的能力方面的不足。现有基准通常缺乏强大的测试套件来全面验证代码的鲁棒性，从而损害评估的公平性。此外，大多数当前的评估工作仍然是肤浅的，仅关注测量代码提交的通过率，而没有对模型的能力进行彻底和系统的分析。ProBench通过提供一个在线提交机制，确保了代码鲁棒性评估的公平性和有效性，并通过多维度的调查结合思维链分析和代码评估，彻底检查LLMs的代码推理能力，从而解决了这些问题。

衍生相关工作

ProBench数据集衍生了多个相关的工作。例如，研究人员可以基于ProBench开发新的LLMs，这些模型专门针对竞争性编程中的推理任务进行训练。此外，ProBench还可以用于开发新的编程教育工具和平台，这些工具和平台可以帮助学生和程序员提高他们的编程技能。此外，ProBench还可以用于开发自动编程评估系统，这些系统可以自动评估编程作业和竞赛，并提供反馈，帮助学生和程序员提高他们的编程能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集