CoCoClaNeL

Name: CoCoClaNeL
Creator: 北京大学
Published: 2025-03-25 20:30:30
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/msv-lab/HoarePrompt

下载链接

链接失效反馈

官方服务：

资源简介：

CoCoClaNeL是一个挑战性的程序正确性分类数据集，包含程序与自然语言要求配对，用于测试最先进的LLM在处理复杂要求时的推理限制。数据集中的程序和要求都是2024年1月以后发布的，以防止许多最新LLM的数据泄露。该数据集旨在评估HoarePrompt方法在自然语言要求方面的程序正确性分类效果。

提供机构：

北京大学

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

CoCoClaNeL数据集的构建基于Codeforces编程竞赛中2024年上半年发布的问题与解决方案对。为确保数据的新颖性和挑战性，所有问题和解决方案均发布于2024年1月之后，避免了数据泄露问题。数据集包含645对问题与解决方案，其中322个解决方案被标记为不正确。构建过程中，特别关注了包含细微错误的提交，例如紧邻正确解决方案之前的错误提交，以及测试通过率接近50%或仅有一个失败测试用例的提交。

特点

CoCoClaNeL数据集的特点在于其高度挑战性和真实性。所有问题均来自编程竞赛，具有明确的描述和严格的测试标准，确保了问题的复杂性和解决方案的多样性。数据集中的错误解决方案由人类引入，涵盖了从简单到复杂的各种错误类型，能够有效测试大型语言模型在程序正确性分类任务中的推理能力。此外，数据集的构建时间确保了其与现有大型语言模型的训练数据无重叠，避免了数据泄露带来的偏差。

使用方法

CoCoClaNeL数据集的使用方法主要集中在评估大型语言模型在程序正确性分类任务中的表现。研究人员可以将该数据集用于训练和测试模型，以验证模型在理解自然语言需求和程序代码之间关系的能力。具体使用步骤包括：加载数据集，预处理问题描述和代码，应用模型进行分类预测，最后评估模型的分类准确率、召回率等指标。数据集还可用于比较不同提示策略（如HoarePrompt与传统方法）在程序正确性分类任务中的效果。

背景与挑战

背景概述

CoCoClaNeL数据集由北京大学和南开大学的研究团队于2024年创建，旨在评估大型语言模型（LLMs）在自然语言需求下对程序正确性的分类能力。该数据集包含来自Codeforces编程竞赛的645个问题-解决方案对，其中部分程序包含人为引入的错误，以测试LLMs在复杂需求下的推理极限。数据集的设计严格避免了数据泄露问题，所有问题和解决方案均在2024年1月之后发布，确保了许多先进LLMs的训练数据中不包含这些内容。CoCoClaNeL的建立填补了程序正确性分类领域缺乏高质量、挑战性数据集的空白，为相关研究提供了重要基准。

当前挑战

CoCoClaNeL数据集面临的主要挑战包括：1) 领域问题挑战：程序正确性分类需要模型深入理解自然语言需求和程序语义之间的复杂关系，这对当前LLMs的推理能力提出了严峻考验；2) 构建过程挑战：确保数据集中错误的多样性和复杂性，同时避免数据泄露问题；3) 评估挑战：设计能够准确衡量模型性能的指标，特别是在处理复杂循环和边界条件时。此外，数据集中包含的编程竞赛问题往往具有较高的抽象层次和复杂的逻辑结构，这进一步增加了模型正确分类的难度。

常用场景

经典使用场景

CoCoClaNeL数据集在程序正确性验证领域具有重要应用价值，其经典使用场景包括评估大型语言模型（LLMs）在自然语言需求下对程序正确性的分类能力。该数据集通过构建编程竞赛问题与解决方案的配对，其中部分程序包含人为引入的错误，为研究者提供了一个标准化测试平台。在HoarePrompt等程序分析方法的研究中，该数据集被用于验证模型能否准确识别程序是否符合自然语言描述的需求。

实际应用

在实际应用场景中，CoCoClaNeL数据集可广泛应用于软件开发质量保障领域。它支持构建智能编程助手中的自动错误检测系统，帮助开发者在代码编写阶段发现潜在缺陷。教育领域可利用该数据集开发编程教学工具，自动评估学生作业是否符合题目要求。在持续集成环境中，基于该数据集训练的模型能够快速验证代码变更是否满足需求文档描述的功能，显著提升软件交付效率和质量。

衍生相关工作

CoCoClaNeL数据集推动了多项衍生研究工作。基于该数据集，研究者开发了HoarePrompt方法，将霍尔逻辑扩展到自然语言领域。在测试生成方向，AgentCoder等工具利用该数据集优化了LLM生成的测试用例质量。数据集还启发了LiveCodeBench等新型基准的构建，用于更全面地评估LLMs的编码能力。在形式化方法领域，该数据集促进了将自然语言推理转化为形式证明的技术探索，如Proof-Carrying Code Completions等工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集