CodeCriticBench

Name: CodeCriticBench
Creator: M-A-P
Published: 2025-02-23 23:36:43
License: 暂无描述

arXiv2025-02-23 更新2025-02-26 收录

下载链接：

https://github.com/multimodal-art-projection/CodeCriticBench

下载链接

链接失效反馈

官方服务：

资源简介：

CodeCriticBench是由M-A-P研究机构提出的代码评价数据集，包含代码生成和代码问答两类任务，难度分为易、中、难三个等级。数据集由问题、答案、细粒度评价清单和相应的标签组成，涵盖了正确性标签、每个维度的评价分数、最终分数和难度等级。该数据集旨在全面评估大型语言模型在代码领域的评价能力。

CodeCriticBench is a code evaluation dataset proposed by the M-A-P research institution. It covers two types of tasks: code generation and code question answering, with three difficulty levels: easy, medium and hard. The dataset consists of questions, answers, fine-grained evaluation checklists and corresponding labels, covering correctness labels, evaluation scores for each dimension, final scores and difficulty levels. This dataset aims to comprehensively evaluate the code evaluation capabilities of large language models (LLMs).

提供机构：

M-A-P

创建时间：

2025-02-23

搜集汇总

数据集介绍

构建方式

CodeCriticBench数据集的构建方式是通过对现有代码生成和代码问答数据集进行筛选和重写，并结合人类专家和LLMs的讨论来生成具有不同难度级别的样本。同时，数据集还包含了基于LLMs生成的细粒度评估清单，以便对模型的能力进行更精确的评估。

特点

CodeCriticBench数据集的特点是全面，包含了代码生成和代码问答两种主流任务，并且每种任务都包含了不同难度级别的样本。此外，数据集还包含了基于LLMs生成的细粒度评估清单，以便对模型的能力进行更精确的评估。

使用方法

CodeCriticBench数据集的使用方法是对LLMs进行评估，包括基本评估和高级评估。基本评估包括对模型预测的准确性进行评估，而高级评估则包括对模型在多个维度上的能力进行评估。此外，数据集还包含了基于LLMs生成的细粒度评估清单，以便对模型的能力进行更精确的评估。

背景与挑战

背景概述

在大型语言模型（LLMs）迅速发展的背景下，其评估和改进代码批判能力的需求日益凸显。CodeCriticBench数据集的创建旨在填补现有代码批判基准的空白，这些基准通常侧重于通用领域的推理任务，而在代码任务上的评估不足。CodeCriticBench由M-A-P团队创建，包括来自NJU、Alibaba、BUAA、CASIA、BUPT、Kuaishou、OPPO等机构的研究人员共同参与。该数据集旨在全面评估LLMs在代码生成和代码问答任务上的批判能力，通过基本和高级批判评估，为LLMs的推理能力提供必要的反馈和建议。CodeCriticBench的创建对相关领域产生了重要影响，为评估和改进LLMs的代码批判能力提供了有力的工具。

当前挑战

CodeCriticBench数据集面临着多方面的挑战。首先，在解决领域问题上，CodeCriticBench旨在评估LLMs在代码生成和代码问答任务上的批判能力，这需要LLMs具备对代码逻辑、错误识别和改进建议等方面的深刻理解。其次，在构建过程中，CodeCriticBench需要收集和生成大量高质量的代码样本，并进行细致的标注和评估，这需要投入大量的人力和时间成本。此外，CodeCriticBench还需要不断更新和完善，以适应LLMs的快速发展和新出现的代码任务。

常用场景

经典使用场景

CodeCriticBench数据集被设计为全面评估大型语言模型在代码生成和代码问答任务中的评论能力。该数据集包含多种难度级别的代码任务，并提供了基本的评论评估和高级评论评估两种评估协议，其中高级设置中设计了细粒度的评估清单。这使得CodeCriticBench成为评估LLM代码评论能力的理想选择。

解决学术问题

CodeCriticBench数据集解决了现有评论基准的局限性，这些基准通常关注通用领域的多样化推理任务，而在代码任务上的评估不足，且缺乏从不同维度进行的全面评估。CodeCriticBench填补了这一空白，通过包括两种主流的代码任务（代码生成和代码问答）以及不同难度的评估，提供了全面的评估框架，从而为学术研究提供了宝贵的资源和工具。

衍生相关工作

CodeCriticBench数据集的发布推动了相关研究的发展，包括但不限于：1. 基于CodeCriticBench的模型训练和优化，以提高LLM在代码评论任务上的性能；2. 开发新的评估指标和协议，以更全面地评估LLM的代码评论能力；3. 将CodeCriticBench应用于其他领域，如自然语言处理和机器翻译，以评估和改进LLM在这些领域的性能。CodeCriticBench为相关研究提供了宝贵的资源和数据集，推动了LLM代码评论能力的研究和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集