CuREV

github2025-02-19 更新2025-02-21 收录

下载链接：

https://github.com/OussamaSghaier/CuREV

下载链接

链接失效反馈

官方服务：

资源简介：

CuREV是一个为提高代码审查质量而精心策划的代码审查数据集，用于改善语言模型在代码审查下游任务（如评论生成和代码优化）的性能。

CuREV is a meticulously curated code review dataset crafted to improve code review quality and enhance the performance of language models on downstream code review tasks such as comment generation and code optimization.

创建时间：

2025-02-06

原始信息汇总

CuREV数据集概述

数据集名称

CuREV: Curating Review Comments for Improved Code Review Automation

数据集简介

CuREV是一个经过优化的代码审查评论数据集，旨在提高数据质量并改善语言模型在代码审查下游任务（如评论生成和代码优化）的性能。

主要贡献

数据中心化的评估框架
用于提高评论质量的审查数据集优化管道
对优化后数据集在下游任务中的性能评估

数据集结构

数据集包含以下目录结构：

code_refinement/：代码优化包
comment_generation/：评论生成包
quality_assessment/：质量评估研究包
data_curation/：数据优化包
util/：辅助和配置包
data/：数据集和结果文件夹
models/：大型语言模型文件夹
requirements.txt：项目所需的Python库

环境设置

支持两种环境设置方法：Python虚拟环境和Docker。

数据来源

原始代码审查数据集可在Zenodo获取。实验需要将Code_Refinement.zip下载到data/文件夹，并使用util.dataset中的create_HFdataset方法合并jsonl文件为HuggingFace数据集。

模型

使用Llama-3.1-70B模型在本地机器上生成准确的判断。可以选择相同或兼容ExLlamaV2的量化模型，并将其放置在models/文件夹下。

评估框架

评估框架包括分类方案和评分标准，用于对代码审查评论的类型、性质、礼貌性、相关性、清晰度和简洁性进行分类和评估。

数据集优化

CuREV数据集的优化实验和相关代码位于data_curation/文件夹中。

下游任务

评论生成：使用comment_generation/文件夹中的脚本进行训练和评估。
代码优化：使用code_refinement/文件夹中的脚本进行训练和评估。

贡献者

Oussama Ben Sghaier, Martin Weyssow, Houari Sahraoui

引用

bibtex @misc{sghaier2025harnessinglargelanguagemodels, title={Harnessing Large Language Models for Curated Code Reviews}, author={Oussama Ben Sghaier and Martin Weyssow and Houari Sahraoui}, year={2025}, eprint={2502.03425}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2502.03425}, }

搜集汇总

数据集介绍

构建方式

CuREV数据集的构建采用了一种数据中心的评估框架，该框架包含了对代码评审注释的类型、性质和文明程度的分类方案，以及基于相关性、清晰度和简洁性的评分标准。该数据集通过精心设计的提示，利用大型语言模型（LLM）作为判断者，自动标注样本，以确保可靠和一致的注释质量。构建过程中，研究团队从现有最大的代码评审数据集中筛选并优化了评审注释，以提升数据质量并改进语言模型在代码评审下游任务上的表现。

特点

CuREV数据集的特点在于其高质量的评审注释，这些注释经过了专门的优化流程，以确保其在评论生成和代码精炼等下游任务中的有效性。数据集的构建不仅关注注释的内容，还注重注释的类型、性质和文明程度，以及整体的质量评估，这使得CuREV成为一个全面且适用于自动化代码评审任务的数据集。

使用方法

使用CuREV数据集首先需要设置适当的环境，可以通过Python虚拟环境或Docker容器来完成。数据集的原始代码评审数据可以从Zenodo下载，并放置在项目目录下的data文件夹中。利用提供的工具方法，可以将下载的jsonl文件合并成HuggingFace数据集。此外，可以通过项目提供的脚本和配置文件来训练和评估语言模型在评论生成和代码精炼任务上的性能。

背景与挑战

背景概述

CuREV数据集是一项旨在提升代码审查自动化质量的研究成果，创建于2025年，主要研究人员包括Oussama Ben Sghaier、Martin Weyssow和Houari Sahraoui。该数据集的核心研究问题是提高代码审查评论的质量，以增强语言模型在评论生成和代码精炼下游任务上的性能。CuREV的构建采用了数据中心的评估框架和审查评论的精选流程，对现有最大的代码审查数据集进行了质量评估和优化。该数据集的发布对于代码审查自动化领域具有显著的影响力和推动作用。

当前挑战

在构建CuREV数据集的过程中，研究团队面临了多个挑战。首先，如何设计一个全面有效的评估框架来分类和评估代码审查评论的质量是一个关键挑战。其次，构建数据精选流程以改进评论质量，同时保证评论的准确性和相关性，也是一大挑战。此外，数据集的构建还涉及到了如何利用大型语言模型进行自动化标注，并确保标注的可靠性和一致性。这些挑战不仅要求技术创新，还要求对现有数据集进行深入的理解和分析。

常用场景

经典使用场景

CuREV数据集的典型应用场景在于提升代码审查自动化过程中的评论质量。该数据集通过精心策划和优化代码审查评论，为下游任务如评论生成和代码精炼提供了高质量的训练数据，进而辅助大型语言模型在此类任务上的表现。

衍生相关工作

CuREV数据集的构建促进了相关领域的研究工作，如代码审查自动化、大型语言模型在代码理解中的应用等。它为后续研究提供了坚实的基础，并激发了更多关于如何利用先进技术优化代码审查过程的研究。

数据集最近研究