CodeFuse-CR-Bench

Name: CodeFuse-CR-Bench
Creator: 蚂蚁集团、新南威尔士大学悉尼分校、香港浸会大学
Published: 2025-09-18 19:24:09
License: 暂无描述

arXiv2025-09-18 更新2025-09-20 收录

下载链接：

https://huggingface.co/datasets/codefuse-ai/xxx

下载链接

链接失效反馈

官方服务：

资源简介：

CodeFuse-CR-Bench是一个针对Python项目的端到端代码审查评估的综合数据集，由70个Python项目中的601个高质量实例组成，涵盖了9个Pull-Request问题领域。每个实例提供了丰富的多方面上下文，包括相关问题、PR细节和仓库状态，支持端到端评估。数据集创建过程包括严格的仓库选择、PR抓取和属性过滤、PR分类、特征标记和人工选择与标注。该数据集旨在解决现有代码审查评估数据集缺乏综合性和上下文的问题，并为大语言模型在代码审查任务上的性能评估提供了一个基准。

CodeFuse-CR-Bench is a comprehensive end-to-end code review evaluation dataset for Python projects, consisting of 601 high-quality instances from 70 Python projects and covering 9 Pull Request (PR) problem domains. Each instance provides rich multi-faceted context, including related issues, PR details, and repository status, enabling end-to-end evaluation. The dataset creation process includes strict repository selection, PR crawling and attribute filtering, PR categorization, feature annotation, as well as manual selection and annotation. This dataset aims to address the lack of comprehensiveness and contextual information in existing code review evaluation datasets, and serves as a benchmark for evaluating the performance of Large Language Models (LLMs) on code review tasks.

提供机构：

蚂蚁集团、新南威尔士大学悉尼分校、香港浸会大学

创建时间：

2025-09-18

搜集汇总

数据集介绍

构建方式

在代码审查研究领域，现有基准普遍存在任务碎片化与上下文贫乏的局限。CodeFuse-CR-Bench通过系统化构建流程弥合这一差距：首先从GitHub筛选230个高星Python项目，基于PR数量与活跃度进行严格过滤；随后爬取合并状态且关联至少一个关闭问题的PR，确保数据质量；通过启发式规则对提交进行加权评分，提取目标提交及其对应的高质量审查评论；最后采用人工标注与LLM辅助分类，对问题域、难度与审查工作量进行多维度标注，最终从70个项目中精选601个实例，形成覆盖九大问题域的综合性基准。

特点

作为首个全面感知的代码审查基准，CodeFuse-CR-Bench的核心特点在于其上下文丰富性与真实性。每个实例包含22个结构化字段，涵盖基础信息、PR相关元数据（如问题描述、提交补丁）、审查过程信息（如评论文本、差异块）及仓库级上下文（如合并提交补丁），完整模拟开发者所需的全局推理环境。基准严格遵循现实软件工程实践，所有实例均源自真实开源项目，且通过多轮过滤与人工评估确保数据质量，其问题域分布涵盖缺陷修复、新功能添加、性能优化等九大类别，充分体现复杂软件维护场景的多样性。

使用方法

该数据集专为端到端代码审查评估设计，使用者需首先加载实例的结构化上下文，包括问题陈述、代码补丁及仓库状态信息。评估时可采用检索式或预言式上下文获取策略，前者通过BM25检索相关代码文件，后者直接提取变更文件集合作为上下文输入。生成审查报告后，需通过多维度评估框架进行量化：结合基于规则的指标（如位置相似性、语义相似性、缺陷匹配）与基于模型的评估（奖励模型与LLM即评判员），综合计算功能实现、代码质量、风格一致性及文档完整性等维度的分数，最终输出全面性能评分以反映模型在真实审查场景中的综合能力。

背景与挑战

背景概述

CodeFuse-CR-Bench由Ant Group、UNSW Sydney及香港浸会大学的研究团队于2025年提出，旨在解决自动化代码评审领域存在的“现实鸿沟”问题。该数据集聚焦Python项目的端到端代码评审评估，包含来自70个开源项目的601个高质量实例，覆盖九类拉取请求问题域。其创新性在于首次引入全面性感知理念，整合了问题描述、PR元数据、代码变更及仓库级上下文等多维度信息，显著提升了代码评审评估的真实性和完整性，为大型语言模型在软件工程领域的应用提供了更贴近实际的评测基准。

当前挑战

该数据集核心挑战在于解决真实代码评审场景中的全面性缺失问题，包括任务碎片化、上下文贫瘠和评估指标狭窄三大难题。构建过程中需克服多源数据融合的复杂性，如从GitHub提取结构化PR信息时需处理异构数据格式；同时需设计启发式规则筛选高质量评审提交，并人工标注问题域、难度及评审工作量等特征，确保数据质量与代表性。此外，长上下文处理与冗余信息过滤对模型推理能力提出更高要求。

常用场景

经典使用场景

在软件工程领域，CodeFuse-CR-Bench作为首个全面感知的代码审查基准测试平台，其经典使用场景聚焦于评估大型语言模型在真实仓库级代码审查任务中的端到端推理能力。该数据集通过提供包含关联问题、PR详情及完整仓库状态的多维度上下文，支持模型模拟人类审查者的完整认知流程——从理解初始问题到定位代码变更中的潜在缺陷，最终形成连贯的审查意见。这一设计使得研究者能够突破传统子任务评估的局限，在接近实际开发环境的场景中验证模型对代码功能、质量、风格及文档等多维度的综合分析能力。

实际应用

在实际工业应用中，该数据集为构建智能代码审查系统提供了关键支撑。开发团队可基于其丰富的上下文信息训练模型，实现自动化缺陷检测、代码规范核查及安全漏洞识别。例如，在持续集成流程中集成此类模型，可实时审查Pull Request中的代码变更，精准定位潜在问题并生成针对性改进建议。此外，其覆盖的九大问题域（如Bug修复、性能优化、安全补丁）使其能够适应不同开发场景的需求，显著提升代码质量审查的效率和一致性，为大规模软件维护提供可靠的技术保障。

衍生相关工作

该数据集衍生出多项经典研究工作，主要包括三大方向：其一，基于其评估框架开发的奖励模型与LLM-as-a-Judge评估体系，为代码审查质量提供了兼具规则精确性与语义理解力的混合评估方法；其二，催生了上下文检索策略的创新研究，如BM25检索与Oracle检索的对比实验，揭示了不同上下文获取方式对审查性能的影响规律；其三，推动了多模态代码理解模型的发展，Gemini 2.5 Pro等模型在该数据集上的卓越表现验证了跨问题域泛化能力的可行性，为后续智能审查系统的设计提供了重要参考基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集