codereview-dataset

Name: codereview-dataset
Creator: Nutanix
Published: 2025-08-06 04:30:25
License: 暂无描述

Hugging Face2025-08-06 更新2025-08-07 收录

下载链接：

https://huggingface.co/datasets/Nutanix/codereview-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

代码审查执行数据集包含了全面的代码审查数据，包括拉取请求、AI生成的代码建议、人工反馈以及静态分析结果。它代表了现实世界软件开发工作流程和代码质量过程。该数据集涵盖了代码审查过程的整个生命周期，包括拉取请求的元数据和上下文、针对改进的AI生成代码建议、对建议的人工反馈和情感分析、来自安全工具的静态分析扫描结果以及代码审查活动的时序模式。

The Code Review Execution Dataset comprises comprehensive code review data, including pull requests, AI-generated code suggestions, human feedback, and static analysis results. It reflects real-world software development workflows and code quality processes. This dataset covers the full lifecycle of the code review process, including metadata and contextual information of pull requests, AI-generated code improvement suggestions, human feedback and sentiment analysis on the suggestions, static analysis scan results from security tools, and temporal patterns of code review activities.

提供机构：

Nutanix

创建时间：

2025-08-06

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码审查是保障软件质量的关键环节。本数据集源自生产环境中的代码审查系统数据库，采用PostgreSQL COPY格式处理技术，通过定制Python提取管道实现高效数据转换。数据涵盖2025年3月至6月期间的真实开发活动，包含68,572条跨五张关联表的记录，经过自动化解析与验证流程，确保99.9%的数据解析成功率。

特点

该数据集深度整合了代码审查全生命周期要素，包括拉取请求元数据、AI生成的代码改进建议、人工反馈情感分析以及Semgrep静态安全扫描结果。其突出特点在于多维度关联性设计，通过PR编号、扫描ID等字段实现跨表关联，完整呈现从代码提交、安全检测到智能建议与人工评估的闭环工作流。数据规模达8.6GB，涵盖10,064个拉取请求和17,650条AI建议，为研究自动化代码审查提供了丰富样本。

使用方法

研究人员可通过HuggingFace数据集库分表加载各CSV组件，使用指定配置名调用pull_requests、semgrep_scans等子集。该数据集适用于代码生成模型微调、开发者情感模式分析、安全修复模式研究等多类场景。使用时需注意数据时间范围限定性，建议结合其他开发环境验证发现，并遵循专业数据处理规范以应对可能存在的专有代码片段。

背景与挑战

背景概述

在人工智能辅助软件工程快速发展的背景下，Nutanix AI团队于2025年推出了codereview-dataset数据集，旨在推动自动化代码审查系统的研究进程。该数据集全面捕捉了2025年3月至6月期间的代码审查生命周期，包含68,572条跨平台拉取请求、AI生成建议与静态分析结果的关联记录。其核心价值在于为代码质量评估、开发者行为分析和安全漏洞检测提供了真实世界的多模态数据支撑，显著促进了智能编程助手与自动化审查工具的技术演进。

当前挑战

该数据集需解决代码质量自动化评估中的多维度挑战：包括AI建议与人工反馈的语义对齐、静态分析误报的识别优化，以及跨项目代码规范的泛化适配。构建过程中面临原始数据库关系结构解析、时序数据一致性维护，以及开发者隐私信息与代码知识产权保护的平衡难题，同时需确保自动化标注系统与人工评审数据的有效融合。

常用场景

经典使用场景

在软件工程研究领域，该数据集为自动化代码审查系统提供了丰富的训练和验证资源。研究人员利用其包含的代码提交、AI生成建议及人工反馈数据，构建能够自动识别代码缺陷、生成改进建议的智能模型。这些模型通过学习真实开发环境中的审查模式，显著提升了代码质量分析的准确性和效率。

解决学术问题

该数据集有效解决了代码审查自动化研究中训练数据稀缺的核心问题，为学术界提供了大规模、高质量的标注数据。通过整合静态分析结果与人工反馈，它支持研究者深入探究代码质量评估模型的可解释性、开发者与AI协作模式以及安全漏洞检测算法的优化，推动了软件工程与人工智能的交叉学科发展。

衍生相关工作

基于该数据集衍生的经典研究包括基于Transformer的代码建议生成模型、多模态代码审查系统以及开发者反馈情感分析框架。这些工作不仅推动了智能编程助手的技术演进，还催生了新型代码质量度量标准和安全漏洞预测模型，为后续软件智能开发工具的设计提供了重要理论基础和实践范式。

以上内容由遇见数据集搜集并总结生成