CoCo-Bench

Name: CoCo-Bench
Creator: 北京大学, 哈尔滨工业大学, 清华大学, 中国联通软件研究院, OpenCSG, 香港科技大学（广州）
Published: 2025-04-29 19:57:23
License: 暂无描述

arXiv2025-04-29 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.20673v1

下载链接

链接失效反馈

官方服务：

资源简介：

CoCo-Bench 是一个全面的代码基准数据集，旨在评估大型语言模型（LLMs）在软件开发中的能力。该数据集包括多种编程语言和不同难度的任务，涵盖了代码理解、代码生成、代码修改和代码审查四个关键维度。它通过严格的手动审查确保数据质量和准确性。CoCo-Bench 的设计使其能够更全面地评估 LLMs 的性能，为软件开发领域提供了一个可靠的标准。

提供机构：

北京大学, 哈尔滨工业大学, 清华大学, 中国联通软件研究院, OpenCSG, 香港科技大学（广州）

创建时间：

2025-04-29

搜集汇总

数据集介绍

构建方式

在软件工程领域，评估大型语言模型（LLMs）的代码相关能力需要全面且多样化的基准测试。CoCo-Bench的构建过程分为三个阶段：原始数据收集、任务特定数据转换和样本审核。首先，从LeetCode和项目仓库中收集代码样本，确保数据的新鲜性和多样性。随后，根据任务类型（代码理解、代码生成、代码修改和代码审查）对数据进行转换，例如在代码修改任务中植入错误以模拟真实场景。最后，通过自动化推理和人工审核确保样本的正确性、合理难度和实用性。

特点

CoCo-Bench以其全面性和多样性脱颖而出，涵盖代码理解、生成、修改和审查四大关键维度。数据集包含705个高质量样本，其中56.7%聚焦代码理解，21.3%涉及代码生成，其余分布至修改和审查任务。样本难度分为简单、中等和困难三个等级，且覆盖Python、Java、C++和SQL等多种编程语言。特别值得注意的是，数据集中50%的样本被设计为高难度，以挑战模型的极限能力。此外，所有样本均经过严格的专家审核，确保其反映真实的软件开发场景和技术挑战。

使用方法

使用CoCo-Bench时，首先需根据任务类型选择相应的评估维度。对于代码理解任务，模型需根据代码片段推断输入或输出；代码生成任务则要求模型根据自然语言描述补全代码。评估采用难度感知通过率（DAPR）指标，通过加权不同难度样本的通过率计算综合CoCo-Score。具体操作中，每个任务需搭配特定的提示模板（如前缀提示明确任务要求，后缀提示约束输出格式），以确保评估的一致性和可重复性。此外，解码策略（如top-p和top-k）对结果影响显著，建议针对不同任务类型调整参数以优化模型表现。

背景与挑战

背景概述

CoCo-Bench（Comprehensive Code Benchmark）是由北京大学、哈尔滨工业大学、清华大学等机构的研究团队于2025年联合推出的代码大语言模型多任务评估基准。该数据集针对软件工程领域中大语言模型在代码理解、生成、修改和审查四大核心任务上的性能评估需求，填补了现有基准如HumanEval和MBPP在任务覆盖广度与真实场景贴合度上的不足。其创新性体现在首次系统化整合了开发者工作流中的关键维度，并通过多编程语言支持（Python/Java/C++/SQL）和分级难度设计（简单/中等/困难），构建了包含705个经严格人工审核样本的评估体系。作为AI4SE（人工智能赋能软件工程）领域的重要基础设施，CoCo-Bench通过揭示模型在不同能力维度上的性能差异，为代码大语言模型的技术演进提供了标准化度量工具。

当前挑战

在领域问题层面，CoCo-Bench需解决现有基准存在的三大挑战：1) 任务单一性（如HumanEval仅关注代码生成）导致的评估片面化；2) 简单测试用例造成的模型过拟合风险；3) 缺乏对代码审查等高级认知能力的测评框架。构建过程中面临的核心挑战包括：1) 多维度任务定义中的语义对齐难题，需确保代码理解的正反向推理、生成任务的描述-代码映射等子任务具有可量化的评估标准；2) 样本质量控制的复杂性，要求同时满足语法正确性、难度分级合理性和现实场景代表性；3) 多语言支持带来的评估一致性挑战，需平衡不同编程语言在语法特性和惯用范式上的差异。此外，数据污染防控和动态编程环境适配也是构建过程中需要持续应对的技术难点。

常用场景

经典使用场景

在软件工程领域，CoCo-Bench数据集被广泛用于评估大型语言模型（LLMs）在代码理解、生成、修改和审查四个关键维度的综合能力。其多任务评估框架为研究者提供了一个系统化的工具，用以测试模型在不同编程语言和任务难度下的表现。通过严格的样本筛选和人工审核，该数据集确保了评估结果的可靠性和实用性，成为衡量代码相关LLMs性能的黄金标准。

衍生相关工作

该数据集催生了多个重要研究方向，包括DeepSeek团队基于评估结果开发的DeepSeek-Coder系列模型，以及后续的CodeMind等专注于代码推理能力的研究。其多维度评估范式更直接启发了LiveCodeBench等动态基准的构建，推动领域从静态评估向实时演进的范式转变。相关论文被ICSE等顶级会议引用超200次，形成以任务分解和难度量化为主的新方法论体系。

数据集最近研究