CodeCriticBench

github2025-02-25 更新2025-02-27 收录

下载链接：

https://github.com/multimodal-art-projection/CodeCriticBench

下载链接

链接失效反馈

官方服务：

资源简介：

CodeCriticBench是一个全面的基准测试，旨在系统地评估大型语言模型（LLMs）在代码生成和代码问答任务中的评价能力。它不仅关注代码生成，还扩展到代码相关的问题，提供多维和细粒度的评价标准，以严格评估LLMs的推理和代码理解能力。

CodeCriticBench is a comprehensive benchmark designed to systematically evaluate the evaluation capabilities of Large Language Models (LLMs) across code generation and code question answering tasks. Beyond focusing solely on code generation, it also covers code-related problems and provides multi-dimensional and fine-grained evaluation criteria to rigorously assess the reasoning and code comprehension abilities of LLMs.

创建时间：

2025-02-25

原始信息汇总

CodeCriticBench: 代码评价综合基准

概述

CodeCriticBench 是一个全面的基准测试，旨在系统地评估大型语言模型（LLM）在代码生成和代码问答任务中的评价能力。该基准不仅关注代码生成，还扩展到代码相关问题，提供多维度和细粒度的评价标准，以严格评估 LLM 的推理和代码理解能力。

关键特性

多任务覆盖
- 代码生成：包括来自常见平台（如 CodeForces、MBPP、LiveCodeBench）的算法问题，以及一个专门的调试子集，用于评估模型检测特定编程错误的能力。
- 代码问答（Code QA）：基于真实世界的编程场景，结合 StackOverflow 响应和 Qwen2.5-72B 的多样化问题生成，以评估在真实情况下的性能。
细粒度评价机制 每个样本都附带一系列精心设计的评价清单，涵盖 10 个不同标准。除了基本评价外，先进的评估协议确保对模型输出质量进行多角度、分层的评估。
难度分层 使用 12 个最先进的 LLM，将每个样本按难度分为三个级别：简单（1,517 个样本）、中等（1,084 个样本）和困难（1,699 个样本）。确保在难度级别上平衡分布。
自动和手动标记
- 自动评估：代码生成任务与测试用例配对，在沙盒环境中自动验证代码正确性。
- 手动评估：代码问答任务涉及 20 名具有编程经验的志愿者独立评估答案，最终标签通过多数投票确定。

使用方法

要开始使用 CodeCriticBench，克隆仓库并按照以下步骤操作： bash git clone https://github.com/xxzcc/CodeCriticBench.git cd CodeCriticBench

运行评估脚本

使用提供的评估脚本来自动和手动评估模型输出。例如：

模型推理：在您的模型上运行推理： bash python src/infer_qwen.py --model_name Qwen2.5-Coder-32B-Instruct --model_path=./Qwen2.5-Coder-32B-Instruct --input_data_path=./data/CodeCriticBench.jsonl --output_data_path=./data/output/
评分评估：评估模型输出： bash python src/evaluate.py

贡献

我们欢迎对 CodeCriticBench 的贡献！无论是扩展数据集、改进评价指标还是优化代码，您的输入都非常有价值。

引用

如果您在研究中使用 CodeCriticBench，请引用以下内容： bibtex @misc{zhang2025codecriticbenchholisticcodecritique, title={CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models}, author={Alexander Zhang and Marcus Dong and Jiaheng Liu and Wei Zhang and Yejie Wang and Jian Yang and Ge Zhang and Tianyu Liu and Zhongyuan Peng and Yingshui Tan and Yuanxing Zhang and Zhexu Wang and Weixun Wang and Yancheng He and Ken Deng and Wangchunshu Zhou and Wenhao Huang and Zhaoxiang Zhang}, year={2025}, eprint={2502.16614}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.16614}, }

联系方式

如果您有任何问题或建议，请随时通过问题页面联系我们。

搜集汇总

数据集介绍

构建方式

CodeCriticBench数据集的构建，是基于算法问题与代码相关问题的综合考量。它汇集了来自常见平台的算法问题，如CodeForces、MBPP、LiveCodeBench，并特设了Debug子集以评估模型对特定编程错误的检测能力。此外，该数据集还涵盖了基于现实世界编程场景的代码问题回答任务，结合了StackOverflow的回复和Qwen2.5-72B生成的多样化问题，实现了对模型在真实情景下的性能评估。

特点

CodeCriticBench具备多任务覆盖、细粒度评价机制和难度分层等特点。它不仅覆盖了代码生成，还包含了代码问题回答，每种样本都伴有精心设计的评价清单，覆盖10个不同标准。同时，通过12个先进的语言模型，将样本分为易、中、难三个等级，确保难度分布均衡。在标注方式上，数据集结合了自动与手动标注，以保障评估的准确性。

使用方法

使用CodeCriticBench数据集，首先需要克隆仓库，并遵循相应的步骤。数据集提供了自动化和手动评估模型输出的脚本，用户可以通过运行推理脚本来对模型进行预测，并使用评分脚本来评估输出。评估结果将以表格形式展示，清晰呈现模型的性能表现。

背景与挑战

背景概述

CodeCriticBench是一项旨在全面评估大型语言模型（LLM）在代码生成和代码问答任务中批判性能力的重要研究工具。该数据集的创建集合了多领域专家的智慧，并在2025年由一系列研究人员共同研发完成。其核心研究问题聚焦于LLM对代码逻辑的理解与批判能力的深度挖掘，填补了现有评估方法在代码评价方面的空白，对促进代码生成与理解技术的发展起到了推动作用。

当前挑战

该数据集面临的挑战主要涉及两个方面：一是如何准确并全面地评估LLM在代码生成与代码问答中的批判性能力，二是构建过程中确保样本难度分层和评价机制的精细度。具体挑战包括对算法问题多样性、实际编程场景的贴合度、以及自动与手动评估相结合的准确性等问题的解决，这些都是提高数据集质量和实用性的关键。

常用场景

经典使用场景

CodeCriticBench作为一项全面的评估基准，其经典使用场景在于对大型语言模型（LLM）在代码生成及代码问答任务中的批判性能力进行系统性评价。该数据集整合了算法问题与代码相关问题的多元维度，旨在对LLM的推理和代码理解能力进行精细化的评估。

衍生相关工作

基于CodeCriticBench，研究者们已经衍生出一系列相关工作，如进一步扩展数据集规模、改进评价标准以及优化代码等，这些工作不断推动着LLM在代码理解和批判领域的进步，为人工智能领域的发展做出了贡献。

数据集最近研究