CodeJudgeBench

Name: CodeJudgeBench
Creator: ASUS Intelligent Cloud Services (AICS) & National Taiwan University
Published: 2025-07-15 01:56:29
License: 暂无描述

arXiv2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/mattymchen/codejudgebench

下载链接

链接失效反馈

官方服务：

资源简介：

CodeJudgeBench是一个专门用于评估大型语言模型（LLM）在代码生成、代码修复和单元测试生成三个关键编码任务中的性能的基准数据集。该数据集包含4260个精心设计的评估对，来源于LiveCodeBench的挑战性编码问题，并通过先进的语言模型如Gemini和Claude生成候选响应。数据集的创建过程包括响应收集、响应验证和响应配对三个阶段，旨在为LLM-as-a-Judge提供一种可扩展和鲁棒的评估框架，并促进自动响应排序，从而提高整体性能。数据集适用于评估LLM在编码场景下的可靠性和一致性，并为LLM-as-a-Judge的开发提供有价值的建议。

CodeJudgeBench is a benchmark dataset specifically designed to evaluate the performance of Large Language Models (LLMs) across three core coding tasks: code generation, code repair, and unit test generation. This dataset contains 4,260 carefully curated evaluation pairs derived from challenging coding problems in LiveCodeBench, with candidate responses generated by advanced language models such as Gemini and Claude. The dataset construction process consists of three stages: response collection, response validation, and response pairing. It aims to provide a scalable and robust evaluation framework for LLM-as-a-Judge, facilitate automatic response ranking, and thereby enhance overall system performance. This dataset can be utilized to evaluate the reliability and consistency of LLMs in coding scenarios, and delivers valuable guidance for the development of LLM-as-a-Judge systems.

提供机构：

ASUS Intelligent Cloud Services (AICS) & National Taiwan University

创建时间：

2025-07-15

原始信息汇总

CodeJudgeBench 数据集概述

数据集基本信息

名称: CodeJudgeBench
用途: 评估基于LLM的编码相关任务评判能力
标签: code

数据集配置

1. codegen

特征:
- question_title (string)
- question_content (string)
- platform (string)
- question_id (string)
- contest_id (string)
- contest_date (string)
- starter_code (string)
- difficulty (string)
- pos_response (string)
- neg_response (string)
- release_date (date32)
数据分片:
- claude_3.7: 325个样本，1,263,015字节
- gemini_2.5_flash: 430个样本，4,631,496字节
- gemini_2.5_pro: 256个样本，4,801,547字节
- claude_4: 285个样本，1,615,706字节
下载大小: 5,481,522字节
数据集大小: 12,311,764字节

2. coderepair

特征:
- question_title (string)
- question_content (string)
- platform (string)
- question_id (string)
- contest_id (string)
- contest_date (string)
- starter_code (string)
- difficulty (string)
- wrong_code (string)
- wrong_meta (struct):
  - error (string)
  - error_code (int64)
  - error_message (string)
  - expected (string)
  - inputs (string)
  - output (string)
- pos_response (string)
- neg_response (string)
- release_date (date32)
数据分片:
- claude_3.7: 878个样本，5,702,183字节
- gemini_2.5_flash: 654个样本，11,690,388字节
- gemini_2.5_pro: 877个样本，15,672,719字节
下载大小: 12,154,041字节
数据集大小: 33,065,290字节

3. testgen

特征:
- question_title (string)
- question_content (string)
- platform (string)
- question_id (string)
- contest_id (string)
- contest_date (string)
- starter_code (string)
- difficulty (string)
- pos_input (string)
- neg_input (string)
- pos_response (string)
- neg_response (string)
- release_date (date32)
数据分片:
- claude_3.7: 306个样本，511,222字节
- gemini_2.5_flash: 319个样本，537,627字节
- gemini_2.5_pro: 215个样本，364,991字节
下载大小: 663,159字节
数据集大小: 1,413,840字节

搜集汇总

数据集介绍

构建方式

CodeJudgeBench的构建过程分为三个主要阶段：响应收集、响应验证和响应配对。在响应收集阶段，研究人员从LiveCodeBench中选取具有挑战性的编程问题，并利用先进的生成模型（如Gemini和Claude）生成多个候选响应。响应验证阶段通过单元测试对每个候选响应进行标注，区分正确与错误的代码。最后，在响应配对阶段，每个编程问题随机配对一条正确和一条错误的响应，形成评估实例。这一严谨的构建流程确保了数据集的多样性和高质量。

特点

CodeJudgeBench具有三个显著特点：首先，它涵盖了代码生成、代码修复和单元测试生成三大关键编程任务，全面评估LLM在编程领域的判断能力。其次，数据集规模庞大，包含4,260个精心设计的评估实例，远超同类基准。第三，数据难度层次分明，主要集中在中高级编程问题上，为评估模型的复杂推理能力提供了理想平台。

使用方法

使用CodeJudgeBench时，研究人员可通过两种主要方式评估LLM的评判能力：成对比较和点式评分。成对比较要求模型在两个候选响应中选择更优者，而点式评分则要求为单个响应打分。建议采用原始模型输出作为输入，保留完整响应内容（包括代码和注释）以获得最佳评估效果。为减少随机性影响，每个样本应进行两次评估（交换响应顺序），结果取平均值。

背景与挑战

背景概述

CodeJudgeBench是由ASUS Intelligent Cloud Services (AICS)和国立台湾大学的研究团队于2025年提出的一个专门用于评估大型语言模型（LLM）在编码任务中作为评判者能力的基准数据集。该数据集旨在解决当前LLM-as-a-Judge范式在编码场景中有效性未充分探索的问题，填补了该领域缺乏专用评估工具的空白。CodeJudgeBench涵盖了代码生成、代码修复和单元测试生成三个关键编码任务，共包含4,260个精心策划的样本对。该数据集的构建基于LiveCodeBench中的挑战性编程问题，确保了评估的难度和多样性。CodeJudgeBench的提出为比较不同LLM在编码评判任务上的性能提供了标准化框架，推动了自动化代码评估领域的发展。

当前挑战

CodeJudgeBench面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，LLM-as-a-Judge需要准确评估代码功能正确性而非主观质量，这对模型的代码理解和推理能力提出了极高要求。现有模型在评判单元测试生成任务时表现最差，反映出对代码功能理解的局限性。在构建过程中，主要挑战包括：1) 确保评判样本的高质量和难度平衡，需要从先进LLM生成的候选响应中筛选出细微差异的优劣对比；2) 避免数据污染，通过持续收集新的编程竞赛问题来保证评估的时效性；3) 处理模型评判的随机性问题，如响应顺序变化会导致评判准确率显著波动；4) 设计有效的评估框架，需要权衡评判的准确性和计算开销。

常用场景

经典使用场景

CodeJudgeBench作为评估LLM在代码任务中作为裁判能力的基准，广泛应用于代码生成、代码修复和单元测试生成等关键编程任务。通过精心设计的评估框架，研究人员能够系统地比较不同LLM在判断代码质量方面的表现，从而推动编程辅助工具的发展。

实际应用

在实际应用中，CodeJudgeBench被广泛用于开发和优化自动化代码评审系统。通过利用该数据集，开发者能够训练和评估LLM，使其在代码审查、错误检测和测试用例生成等实际编程场景中提供更可靠的判断，从而显著提升软件开发的效率和质量。

衍生相关工作

CodeJudgeBench的推出激发了多项相关研究，包括JudgeBench、RM-Bench和CJ-Eval等基准测试的改进。这些工作进一步扩展了代码评估任务的覆盖范围，并探索了LLM在不同编程语言和复杂任务中的裁判能力，推动了代码自动评估技术的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集